نقل قول:
نوشته اصلي بوسيله masood
با سلام خدمت شما
تا حدودی بنده مخالفم. مثال عرض می کنم:
ممکن هستش ما بخواهیم در یک تصویر دایره ها و بیضی ها رو شناسایی بکنیم و بعد طول و عرض دایره و بیضی ها رو استخراج کنیم و بعد مثلا متوسط 200 دایره با قطر های مختلف توی یک تصویر داشته باشیم و بخواهیم که این ها رو به تعدادی خوشه تقسیم کنیم. حالا فرضمون اینه که تعداد بهینه خوشه ها به این موضوع برمیگرده که قطر دایره ها چقدر بهم شبیهند. مثلا با استفاده از k-mean اون ها رو به 2 خوشه، بعد 3 خوشه و بعد به همون صورت تا 12 خوشه تقسیم می کنیم. بعد میریم توی هرخوشه بندی به صورت جداگانه به ازای همه خوشه های اون خوشه بندی قطر کوچکترین دایره هر خوشه رو از قطر بزرگترین دایره اون خوشه کم می کنیم و چیزی بدست میاریم که من اسمشو می زارم طول خوشه. یعنی اگر در یک خوشه قطر کوچکترین دایره 10 پیکسل و قطر بزرگترین دایره همون خوشه 14 پیکسل باشه طول خوشه میشه 4 پیکسل. و ما این طول خوشه رو برای تمام خوشه های تمام خوشه بندی ها محاسبه می کنیم. خب حالا ما چی داریم 200 دایره که در هر خوشه بندی تعدادی به یک خوشه اختصاص پیدا کردن. و به طور بدیهی در هر خوشه هر قدر این طول خوشه کوتاه تر باشه دایره های ما به هم شبیه ترن!پس تا اینجا بر اساس معیارمون رفتیم جلو. .
خب تا اینجا ما سناریوئی رو دنبال کردیم که به نظر میرسه اگر تعداد خوشه ها رو زیاد کنیم نه لازماً ولی در اکثر مواقع دوایر داخل خوشه ها به هم شبیه ترن و شبیه ترن و... خب مساله همینه ممکنه برای یک مساله خاص تعداد بالای خوشه نه تنها بهینه نباشه بلکه مشکل زا هم باشه!
بنده البته این نگاه رو ندارم که هیچ وابستگی بین معیار شباهت و تعداد بهینه خوشه ها نیست ولی این موضوع رو که در انتخاب تعداد خوشه های بهینه باید به هدف خوشه بندی توجه بشه رو مبحث مطرحی می دونم. البته وقتی به دنبال تعداد بهینه خوشه می گردیم می تونه به این معنی باشه که ما نمی دونیم چه تعداد خوشه بهینه هستش و به دنبال یک الگوریتم و روش هستیم که مارو به اون برسونه. خب اینجا میشه گفت که بنابر توضیحات بالا:
تعداد بهینه خوشه ها در واقع با اصل مسئله در ارتباط هست و معیار شباهت به تنهایی برای یافتن تعداد بهینه خوشه ها کافی نیست.
|
سلام دوست من
ممنون که توضیحات من رو کامل کردید.
اما لازم دیدم چند نکته رو یاد آور بشم:
۱- معیار شباهت در واقع به نوعی هدف خوشه بندی هم هست. در مثال شما معیاری که در نظر گرفتید طول قطر دایره ها بود. "دایره هایی که طول قطر آنها به هم شبیه هستند" که به نوعی معیار شباهت شما در نظر گرفته شده است
۲- الگوریتم K-means برای پیدا کردن تعداد بهینه خوشه ها غیر کارا میباشد. به این دلیل که ما تعداد بهینه خوشه ها را نمیدانیم و در این الگوریتم باید تعداد خوشه ها از قبل مشخص باشد.
۳- تقسیم متوالی تعداد خوشه ها به خوشه های کوچکتر به شکلی که شما مطرح کردید همیشه ما رو به جواب مناسب نمیرسونه. البته شاید به نظر برسه در مثال شما کار آمد باشه.
۴- در نهایت الگوریتمی که شما مطرح کردید به الگوریتم Bisecting K-means شناخته میشه (البته خیلی کاملتر هست) که برای تعیین نقاط اولیه الگوریتم K-means به کار میره و در نوع پیشرفته تر برای خوشه بندی سلسله مرتبی کاربرد داره
باز هم ممنون از شما
موفق باشید