نقل قول:
دوست خوبم اصولا تمامی روش های خوشه بندی روی similarityوdisimilarity درون و بین خوشه ای مانور می دهند. همه روش های خوشه بندی می خواهند similarity(شباهت) درون خوشه ای را افزایش دهد و disimilarity(عدم شباهت) بین خوشه ای را نیز افزایش دهند.
به عبارت دیگه اعضای داخل خوشه با هم بیشترین شباهت رو داشته باشند و این اعضا با اعضای خوشه های دیگر کمترین شباهت را داشته باشند.
|
خیلی ممنون از تذکرتان اما منظور بنده از طرح مفهوم similarity یک مفهوم انتزایی از فاصله است یعنی شما معیارتان از فاصله چیست؟قطعا معیار های مختلف (یا حداقل احتمالا) در تعداد خوشه ها،طرز قرار گرفتن آنها نسبت به هم،شرط توقف و.... تاثیر گذار خواهد بود.فرض کنید شما مجموعه داده ای با 30 خصوصیت دارید خوب حالا باید روی اینکه similarity چه باشد مانور بدهید.چون شما اینجا نمی توانید فضا را درک کنید که مثلا مثل فضای دو بعدی بگویید مثلا فاصله اقلیدسی(در دو بعد) مناسب است.لذا مفاهیم similarityو disimilarity مفاهیم بنیادی خوشه بندی هستند اما از یک دید جامع مفاهیمی انتزایی هستند که بسته به الگوریتمتان،فضا تان و... قابل تعریف کردن و مانور دادن هستند.
اما در پاسخ به
hossein722 تا آنجا که من متوجه شدم برای کار شما الگوریتم ISOdata مناسب تر باشد(اگر درست متوجه شده باشم)هر چند kmeans هم خوب است.
ضمیمه یک اسلاید برای kmeans پیوست شده است.