نمايش پست تنها
قديمي ۱۲-۵-۱۳۸۸, ۱۲:۰۱ قبل از ظهر   #13 (لینک دائم)
Astaraki Female
Administrator
 
آواتار Astaraki
 
تاريخ عضويت: خرداد ۱۳۸۷
محل سكونت: تهران-کرج!
پست ها: 3,465
تشكرها: 754
16,337 تشكر در 3,127 پست
My Mood: Mehrabon
ارسال پيغام Yahoo به Astaraki
Lightbulb

بررسي تکنيکهاي اندازه‌گيري اعتبار خوشه‌ها


نتايج حاصل از اعمال الگوريتمهاي خوشه‌بندي روي يک مجموعه داده با توجه به انتخاب‌هاي پارامترهاي الگوريتمها مي‌تواند بسيار متفاوت از يکديگر باشد. هدف از اعتبارسنجي خوشه‌ها يافتن خوشه‌هايي است که بهترين تناسب را با داده‌هاي مورد نظر داشته باشند. دو معيارِ پاية اندازه‌گيري پيشنهاد شده براي ارزيابي و انتخاب خوشه‌هاي بهينه عبارتند از:[8]

*

تراکم (Compactness): داده‌هاي متعلق به يک خوشه‌ بايستي تا حد ممکن به يکديگر نزديک باشند. معيار رايج براي تعيين ميزان تراکم داده‌ها واريانس داده‌ها است.
*

جدايي (Separation): خوشه‌ها خود بايستي به اندازه کافي از يکديگر جدا باشند. سه راه براي سنجش ميزان جدايي خوشه‌ها مورد استفاده قرار مي‌گيرد که عبارتند از:

*

فاصلة بين نزديک‌ترين داده‌ها از دو خوشه
*

فاصلة بين دور‌ترين داده‌ها از دو خوشه
*

فاصلة بين مراکزخوشه‌ها

همچنين روش‌هاي ارزيابي خوشه‌هاي حاصل از خوشه‌بندي را به صورت سه دسته تقسيم مي‌کنند که عبارتند از:

*

معيارهاي خروجي (External Criteria)
*

معيارهاي دروني (Internal Criteria)
*

معيارهاي نسبي (Relative Criteria)



هم معيارهاي خروجي و هم معيارهاي دروني بر مبناي روش‌هاي آماري عمل مي‌کنند و پيچيدگي محاسباتي بالايي را نيز دارا هستند. معيارهاي خروجي عمل ارزيابي خوشه‌ها را با استفاده از بينش خاص کاربران انجام مي‌دهند. معيارهاي دروني عمل ارزيابي خوشه‌ها را با استفاده از مقاديري که از خوشه‌ها و نماي آنها محاسبه مي‌شود، انجام مي‌دهند.

پايه معيارهاي نسبي، مقايسة بين شما‌هاي خوشه‌بندي (الگوريم به علاوة پارامترهاي آن) مختلف است. يک و يا چندين روش مختلف خوشه‌بندي چندين بار با پارامترهاي مختلف روي يک مجموعة داده اجرا مي‌شوند و بهترين شماي خوشه‌بندي از بين تمام شماها انتخاب مي‌شود. در اين روش مبناي مقايسه، شاخص‌هاي اعتبارسنجي (Validity-Index) هستند. شاخص‌هاي ارزيابي بسيار متنوعي پيشنهاد شده‌اند که در اين قسمت سعي مي‌شوند تعدادي از رايج‌ترين آنها معرفي شوند.



شاخصهاي اعتبارسنجي

شاخص‌هاي اعتبارسنجي براي سنجش ميزان صحت (Goodness) نتايج خوشه‌بندي به منظور مقايسة بين روشهاي خوشه‌بندي مختلف يا مقايسة نتايج حاصل از يک روش با پارامترهاي مختلف مورد استفاده قرار مي‌گيرند.

در جدول زير مجموعه‌اي از علائم استفاده شده در ادامة اين بخش ارائه شده است:


1-1-1- شاخص دون (Dunn Index)
اين معيار توسط رابطة زير تعريف مي‌شود:


که d(x,y) و diam(ci) در آن به ترتيب با روابط 9 و 10 محاسبه مي‌شوند.




اگر مجموعة داده‌اي، داراي خوشه‌هايي جداپذير باشد، انتظار مي‌رود فاصلة بين خوشه‌ها زياد و قطر خوشه‌هاي (Diameter) آن کوچک باشد. در نتيجه مقداري بزرگ‌تر براي رابطة اين معيار مقداري مطلوب‌تر است. معايب اين معيار عبارتند از:

*

محاسبة زمانبر
*

حساسيت به نويز (قطر خوشه‌ها در صورت وجود يک دادة نويزي مي‌تواند بسيار تغيير کند.)

1-1-2- شاخص ديويس بولدين (Davies Bouldin Index)

اين معيار از شباهت بين دو خوشه (Rij) استفاده مي‌کند که بر اساس پراکندگي يک خوشه (si) و عدم شباهت بين دو خوشه (dij) تعريف مي‌شود. شباهت بين دو خوشه را مي‌توان به صورتهاي مختلفي تعريف کرد ولي بايستي شرايط زير را دارا باشد.

*

*

*

اگر si و sj هر دو برابر صفر باشند آنگاه Rij نيز برابر صفر باشد.
*

اگر و آنگاه
*

اگر و آنگاه

معمولا شباهت بين دو خوشه به صورت زير تعريف مي‌شود:


که در آن dij و si با روابط زير محاسبه مي‌شوند.




با توجه به مطالب بيان شده و تعريف شباهت بين دو خوشه شاخص ديويس بولدين به صورت زير تعريف مي‌شود.


که Ri در آن به صورت زير محاسبه مي‌شود.


اين شاخص در واقع ميانگين شباهت بين هر خوشه با شبيه‌ترين خوشة‌ به آن را محاسبه مي‌کند. مي‌توان دريافت که هرچه مقدار اين شاخص بيشتر باشد، خوشه‌هاي بهتري توليد شده است.


1-1-3- شاخص‌هاي اعتبارسنجي ريشة ميانگين مربع انحراف از معيار (RMSSDT) و ريشة R (RS):

هرچند اين شاخص‌ها معمولا در اعتبار‌سنجي الگوريتم‌هاي سلسله‌ مراتبي مورد استفاده قرار مي‌گيرند ولي قابليت ارزيابي نتايج ساير تکنيک‌هاي خوشه‌بندي را نيز دارا مي‌باشند. در شاخص اعتبار‌سنجي RMSSDT (root – mean– square standard deviation) از واريانس خوشه‌ها استفاده مي‌شود که به شکل رسمي مي‌توان از رابطة 16 براي محاسبه آن استفاده کرد.



با توجه به رابطة بالا و اين‌که اين معيار ميزان همگني خوشه‌‌ها را اندازه‌ مي‌گيرد، مي‌توان دريافت که هرچه مقدار آن کمتر باشد نشان‌ دهندة خوشه‌بندي بهتر داده‌ها است.

شاخص اعتبارسنجي RS (R Square) که با استفاده از رابطة 17، 18 و 19 تعريف مي‌شود، معياري براي بيان عدم‌تشابه بين خوشه‌ها است. به اين شاخص درجة همگني بين گروهي نيز گفته مي‌شود. مقادير آن به بازة اعداد بين 0 تا 1 محدود مي‌باشد. که 0 نشان دهندة نبودن هيچ تفاوتي بين خوشه‌ها و 1 نشان‌ دهندة وجود تفاوتي قابل توجه بين خوشه‌ها است.







1-1-4- شاخص اعتبار‌سنجي sd

اساس شاخص اعتبارسنجي SD، مياگين پراکندگي (Avrage Scattering) و جدايي کلي (Total Sepration) خوشه‌ها است. پراکندگي از طريق محاسبة واريانس خوشه‌ها و واريانس کل محموعة داده‌ها بدست مي‌آيد. با توجه به اينکه اين معيار هم از ميزان همگني داده‌ها و هم از ميزان تراکم خوشه‌ها بهره مي‌برد معيار مناسبي براي ارزيابي خوشه‌ها محسوب مي‌شود. واريانس مجموعة داده‌ها را با روابط 20 و 21 و نيز واريانس يک خوشه‌ را با روابط 22 و 23 مي‌توان محاسبه کرد.

واريانس مجموعه داده ها:




واريانس يک خوشه:




با توجه به واريانسهاي محاسبه شده با روابط بالا، ميانگين پراکندگي خوشه‌ها از رابطة زير محاسبه مي‌شود.


همچنين ميزان جدايي کلي داده‌ها که بر اساس فاصلة مراکز خوشه‌ها از هم تعريف مي‌شود، از رابطة زير محاسبه مي‌شود.


در نهايت شاخص SD با رابطة زير تعريف مي‌شود.


که α عمل وزني براي رابطه است که برابر ميزان جدايي خوشه‌ها در صورت داشتن حداکثر تعداد خوشه‌ها مي‌باشد. مقدار محاسبه شده توسط اين معيار هرچه کوچک‌تر باشد به معني خوشه‌بندي بهتر است.

1-1-5- شاخص اعتبارسنجي S_Dbw

همانند شاخص SD اين معيار هم بر اساس تراکم درون‌خوشه‌اي و ميزان جدايي خوشه‌ها اما در اين شاخص سعي شده تا چگالي خوشه‌ها نيز دخيل شود. به شکل رسمي مي‌توان گفت که شاخص S_Dbw از واريانس بين خوشه‌اي و واريانس درون خوشه‌اي استفاده مي‌کند. واريانس بين خوشه‌ها مقدار ميانگين پراکندگي خوشه‌ها را بدست مي‌آورد که در رابطة 24 نحوة محاسبة آن بيان شده است. مقدار چگالي درون خوشه‌اي نيز با رابطة زير محاسبه مي‌شود.


که uij که در آن نقطة وسط خطي است که vi و vj را به هم وصل مي‌کند. براي محاسبة تابع چگالي اطراف يک نقطه، تعداد نقاط درون ابر کره‌اي را که شعاع آن برابر ميانگين انحراف از معيار خوشه‌ها است، شمارش مي‌شود. ميانگين انحراف از معير خوشه‌ها به صورت زير تعريف مي‌شود.


در نهايت معيار S_Dbw به صورت زير تعريف مي‌شود.


در شاخص S_Dbw سعي شده هر دو معيار خوبي خوشه‌ها با هم ترکيب شوند و تخميني دقيق از خوشه‌هاي خاصل بدست آيد. مقدار کم براي اين شاخص به معني خوشه‌بندي بهتر است.
Astaraki آفلاين است   پاسخ با نقل قول
از Astaraki تشكر كرده است:
dr_bijan (۰۹-۲۵-۱۳۹۲)