![]() |
نقل قول:
احتراما این مساله که گفتید صحیح نیست چون روش هایی وجود داره که نیاز به تعیین تعداد خوشه در ابتدا نیست مانند DBSCAN و OPTICS (این روش ها فقط دو مقدار در ابتدا نیاز داره که تصادفی تعیین میشه و یا تخمین آن راهکارهایی ساده دارد و روش OPTICS که بهبود یافته آن است و بطور خودکار مقادیر را بهبود می دهد و outlier detection را هم انجام می دهد که خیلی مزیت مناسبی است) غیر از این روش ها روش هایی هم مانند (buble و dencule اگر درست یادم بیاد) هم وجود داره میتونه ایده هایی برای تخمین تعداد خوشه بده. |
نقل قول:
ممنون از اطلاعات خوبتون. فکر نمی کردم کسی اینجا از روش های تراکمی خوشه بندی اطلاعات داشته باشه. کاملا درست می گید. من برای روش های ابتدایی و سادا این موضوع رو مطرح کردم. مثل k-mean, kohonen و انواع سلسله مراتبی ها. می تونیم یه تاپیک درست کنیم برای هر روش و توضیحاتی مختصر درباره هرروش بدیم. اگه موافق باشید. من مایلم هرکی هرچی بلده بیاد توی این تاپیک ها بنویسه. اینجوری خیلی عالی می شه. موافقید؟ |
الگوریتم silhouette coefficient
1(ها)ضميمه
نقل قول:
این الگوریتم فاصله درون خوشه ای و برون خوشه ای را برای هر نمونه حساب می کنه و با فرمول خاص خودش میزان همبستگی هر نمونه در هر خوشه را مشخص می کنه. یه عدد بین -1 تا 1. که 1 خیلی خوب و -1 خیلی بده. یعنی اگر عضوی میزان ضریب سیلوهتش مثلا 0.9- باشه قرار گرفتن این نمونه در خوشه ای که تو اون قرار داره خیلی مناسب نیست. |
1(ها)ضميمه
نقل قول:
اما در پاسخ به hossein722 تا آنجا که من متوجه شدم برای کار شما الگوریتم ISOdata مناسب تر باشد(اگر درست متوجه شده باشم)هر چند kmeans هم خوب است. ضمیمه یک اسلاید برای kmeans پیوست شده است. |
با سلام
در همان kmeans اگر attribute به صورت عددی نباشد آنها را به صورت عددی در می آوریم یک مشکل که وجود دارد اگر میزان شباهت را فاصله اقلیدسی در نظر بگیریم رنج یک attribute از یک تا صد باشد و attribute دیگر از یک تا دو باشد و این باعث می شود تاثیر گذاری attribute اول خیلی بیشتر شود یک راحل برای آن map کردن تمام مقادیر attribute ها در فاصله خاص می باشد آیا کسی را حل بهتر دارد ؟ |
نقل قول:
اما اگر قبل از ورود داده ها به الگوریتم k-means ، اونارو نرمال کنیم فضای مسئله کاهش داده می شه و مسئله ملموس تر می شه. حتی در این موارد در مرحله پیش پردازش می شه از کاهش داده ها برای متغیرهایی که پراکندگی داده های اونها زیاده استفاده کرد. اصولا هدف خوشه بندی خلاصه سازی هستش. پس چه بهتر قبل از ورود اطلاعات به مدل این خلاصه سازی و کاهش روی داده ها انجام بشه. |
با سلام
می خواستم بدونم برای محاسبه میزان شباهت از چی استفاده می کنید؟ اگر از فاصله اقلیدسی استفاده کنیم و مثلا ورودی های ما سن افراد و جنسیت باشد ! شما باشید چکار می کنید ؟ اگر آنها را بین 1 و 0 map کنید به نظر تاثیر جنسیت بیشتر می شود و............ در کل می خواستم بدونم آیا راهی وجود داره که بازه ای که باید map کنیم را به مابدهد یا معیاری دیگری که این مشکل را نداشت باشد یعنی ورودی ها ارجحیتی بر هم نداشته باشند. |
نقل قول:
|
سلام دوست گرامی من هم می دونم مسئله فقط میزان شباهت است ولی وقتی شما بخواهید این الگوریتم را در متلب کد کنی متوجه می شوی که پیدا کردن میزان شباهت خیلی تاثیر پذر است از رنجی که ویژگی ها دارند چون ما فاصله اقلدسی را حساب می کنیم .
مثلا اگر جنسیت را 0 و 1 نشان دهیم و سن را 0 تا 100 در نظر بگیریم متوجه می شویم که الگوریتم به جنسیت اصلا توجهی نمی کند و خوشه بندی را بر اساس سن انجام می دهد . |
نقل قول:
|
زمان محلي شما با تنظيم GMT +3.5 هم اکنون ۱۲:۱۶ قبل از ظهر ميباشد. |
Powered by vBulletin® Version 3.8.3
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Search Engine Friendly URLs by vBSEO 3.1.0 ©2007, Crawlability, Inc.