نقل قول:
نوشته اصلي بوسيله zmmhmmdrz
با سلام
در همان kmeans اگر attribute به صورت عددی نباشد آنها را به صورت عددی در می آوریم
یک مشکل که وجود دارد اگر میزان شباهت را فاصله اقلیدسی در نظر بگیریم
رنج یک attribute از یک تا صد باشد و attribute دیگر از یک تا دو باشد و این باعث می شود تاثیر گذاری attribute اول خیلی بیشتر شود
یک راحل برای آن map کردن تمام مقادیر attribute ها در فاصله خاص می باشد
آیا کسی را حل بهتر دارد ؟
|
خوب اگر قرار به map کردن باشه از self organizing map ها استفاده کنیم بهتره که. در این شرایط الگوریتم Kohonen فکر کنم خوب جواب بده چون همه داده ها رو نرمالسازی می کنه و بین بازه 0 تا1 می بره پس تاثیر متغیرها بر روی هدف یکسان می شه.
اما اگر قبل از ورود داده ها به الگوریتم k-means ، اونارو نرمال کنیم فضای مسئله کاهش داده می شه و مسئله ملموس تر می شه. حتی در این موارد در مرحله پیش پردازش می شه از کاهش داده ها برای متغیرهایی که پراکندگی داده های اونها زیاده استفاده کرد. اصولا هدف خوشه بندی خلاصه سازی هستش. پس چه بهتر قبل از ورود اطلاعات به مدل این خلاصه سازی و کاهش روی داده ها انجام بشه.