![]() |
مباني خوشه بندي!
مقدمهاي بر خوشهبندي
خوشهبندي را ميتوان به عنوان مهمترين مسئله در يادگيري بدون نظارت در نظر گرفت. خوشهبندي با يافتن يک ساختار درون يک مجموعه از دادههاي بدون برچسب درگير است. خوشه به مجموعهاي از دادهها گفته ميشود که به هم شباهت داشته باشند. در خوشهبندي سعي ميشود تا دادهها به خوشههايي تقسيم شوند که شباهت بين دادههاي درون هر خوشه حداکثر و شباهت بين دادههاي درون خوشههاي متفاوت حداقل شود. http://ceit.aut.ac.ir/~shiry/lecture...s/image002.jpg شکل 1: در اين شکل نمونهاي از اعمال خوشهبندي روي يک مجموعه از دادهها مشخص شده است که از معيار فاصله(Distance) به عنوان عدم شباهت(Dissimilarity) بين دادهها استفاده شده است. خوشهبندي در مقابل طبقهبندي در طبقهبندي هر داده به يک طبقه (کلاس) از پيشين مشخص شده تخصيص مييابد ولي در خوشهبندي هيچ اطلاعي از کلاسهاي موجود درون دادهها وجود ندارد و به عبارتي خود خوشهها نيز از دادهها استخراج ميشوند. در شکل زير تفاوت بين خوشهبندي و طبقهبندي بهتر نشان داده شده است. http://ceit.aut.ac.ir/~shiry/lecture...s/image002.jpg a http://ceit.aut.ac.ir/~shiry/lecture...s/image003.jpg b شکل 2: a) در طبقهبندي با استفاده يک سري اطلاعات اوليه دادهها به دستههاي معلومي نسبت داده ميشوند. در خوشهبندي دادهها با توجه به الگوريتم انتخاب شده به خوشههايي نسبت داده ميشوند |
يادگيري با نظارت در مقابل يادگيري بدوننظارت
در يادگيري با نظارت از ابتدا دستهها مشخص هستند و هر يک از دادههاي آموزشي به دستهاي خاص نسبت داده شده است و اصطلاحأ گفته ميشود ناظري وجود دارد که در هنگام آموزش اطلاعاتي علاوه بر دادههاي آموزش در اختيار يادگيرنده (Learner) قرار ميدهد. ولي در يادگيري بدون نظارت هيچ اطلاعاتي بجز دادههاي آموزشي در اختيار يادگيرنده قرار ندارد و اين يادگيرنده است که بايستي در دادهها به دنبال ساختاري خاص بگردد. |
کاربردها
از آنجا که خوشهبندي يک روش يادگيري بدون نظارت محسوب ميگردد، در موارد بسياري ميتواند کاربرد داشته باشد * در بازاريابي (Marketing): دستهبندي مشتريها به دستههايي بر حسب رفتارها و نيازهاي آنها از طريق مجموعه زيادي از ويژگيها و آخرين خريدهاي آنها. * زيستشناسي (Biology): دستهبندي حيوانات و گياهان از روي ويژگيهاي آنها * کتابداري : دستهبندي کتابها * نقشهبرداري شهري (City-Planning): دستهبندي خانهها بر اساس نوع و موقعيت جغرافيايي آنها. * مطالعات زلزلهنگاري (Earthquake studies): تشخيص مناطق حادثهخيز بر اساس مشاهدات قبلي. * وب (WWW): دستهبندي اسناد و يا دستهبندي مشتريان به سايتها و .... * داده کاوي (Data Mining): کشف اطلاعات و ساختار جديد از دادههاي موجود * در تشخيص گفتار (Speech Recognition): در ساخت کتاب کد از بردارهاي ويژگي، در تقسيم کردن گفتار بر حسب گويندگان آن و يا فشردهسازي گفتار * در تقسيمبندي تصاوير(Image Segmentation): تقسيمبندي تصاوير پزشکي و يا ماهوارهاي |
مسائل درگير با روشهاي خوشهبندي موجود
متأسفانه چندين مسئاله در خصوص روشهاي خوشهبندي مطرح است که هنوز به شکل کامل پاسخ داده نشدهاند. و همچنان تلاشهاي بسياري به منظور حل آنها انجام ميگيرد. · روشهاي خوشهبندي قادر نيستند تمامي نيازهاي مسائل را به طور همزمان برآوردهکنند. · به دليل پيچيدگي محاسباتي زياد در برخورد با مجموعه دادههاي بزرگ با تعداد داده زياد و تعداد ويژگيهاي زياد براي هر داده عملي نيستند. · به دليل وابستگي شديد به تعريف معيار شباهت بين دادهها در مسائلي که تعريف معيار شباهت مشکل باشد نتايج مطلوبي توليد نميکنند.(در دادهها با تعداد ويژگي زياد) · براي نتايج آنها ميتوان تفسيرهاي مختلفي بيان کرد. خوشهبندي در مقابل چنديسازي برداري همانگونه که بحث شد، خوشهبندي نوعي سازماندهي دادهها است، بر اساس شباهتي که بين آنها تعريف ميشود به گونهاي که شباهت بين دادههايي که درون يک خوشه قرار ميگيرند، نسبت به دادههايي که درون خوشههاي متفاوت قرار ميگيرند، بيشتر باشد. در کاربردهاي ارتباطي و فشردهسازي دادهها از روشهايي به نام چنديسازي برداري استفاده ميشود که از بعضي جنبهها ميتوان آنها را معادل خوشهبندي در نظر گرفت. در چنديسازي برداري نيز دادهها بر اساس ميزان شباهت بين آنها به دستههايي تقسيم مي شوند و هر دسته بوسيله يک بردار که به آن کلمه کد (CodeWord) گفته ميشود جايگزين ميگردد. به مجموعة اين کلماتِ کد اصطلاحأ کتابِ کد(CodeBook) گفته ميشود. دربعضي از بخثهاي علمي بين خوشهبندي و چنديسازي برداري تفاوتهايي قائل ميشوند. زيرا خوشهبندي را يک رهيافت بدون نظارت براي تحليل دادهها در نظر ميگيرند ولي چنديسازي برداري را روشي براي کشف خوشهها نميشناسند بلکه آن را راهي براي نمايش دادهها با تعداد عناصر کمتر به گونهاي که اطلاعات از دست رفته حداقل شود، ميشناسند. عليرغم تفاوت بيان شده ميتوان روشهاي بکار رفته در هر يک آنها را در ديگر نيز بکار برد در اينجا بين خوشهبندي و چنديسازي برداري تفاوتي قائل نميشويم. |
روشهاي خوشهبندي
روشهاي خوشهبندي را ميتوان از چندين جنبه تقسيمبندي کرد: 1- خوشهبندي انحصاري (Exclusive or Hard Clustering) و خوشهبندي با همپوشي (Overlapping or Soft Clustering) در روش خوشهبندي انحصاري پس از خوشهبندي هر داده دقيقأ به يک خوشه تعلق ميگيرد مانند روش خوشهبندي K-Means. ولي در خوشهبندي با همپوشي پس از خوشهبندي به هر داده يک درجه تعلق بازاء هر خوشه نسبت داده ميشود. به عبارتي يک داده ميتواند با نسبتهاي متفاوتي به چندين خوشه تعلق داشته باشد. نمونهاي از آن خوشهبندي فازي است. 2- خوشهبندي سلسله مراتبي (Hierarchical) و خوشهبندي مسطح(Flat) در روش خوشه بندي سلسله مراتبي، به خوشههاي نهايي بر اساس ميزان عموميت آنها ساختاري سلسله مراتبي نسبت داده ميشود. مانند روش Single Link. ولي در خوشهبندي مسطح تمامي خوشههاي نهايي داراي يک ميزان عموميت هستند مانند K-Means. به ساختار سلسله مراتبي حاصل از روشهاي خوشهبندي سلسله مراتبي دندوگرام (Dendogram) گفته ميشود. با توجه با اينکه روشهاي خوشهبندي سلسله مراتبي اطلاعات بيشتر و دقيقتري توليد ميکنند براي تحليل دادههاي با جزئيات پيشنهاد ميشوند ولي از طرفي چون پيچيدگي محاسباتي بالايي دارند براي مجموعه دادههاي بزرگ روشهاي خوشهبندي مسطح پيشنهاد ميشوند. روشهاي خوشهبندي سلسله مراتبي همان گونه که بيان شد، در روش خوشه بندي سلسله مراتبي، به خوشههاي نهايي بر اساس ميزان عموميت آنها ساختاري سلسله مراتبي، معمولا به صورت درختي نسبت داده ميشود. به ا ين درخت سلسله مراتبي دندوگرام (dendogram) ميگويند. روش کار تکنيکهاي خوشهبندي سلسلهمراتبي معمولا بر اساس الگوريتمهاي حريصانه (Greedy Algorithms) و بهينگي مرحلهاي (stepwise-optimal) است. روشهاي خوشهبندي بر اساس ساختار سلسله مراتبي توليدي توسط آنها معمولا به دو دستة زير تقسيم ميشوند: 1. بالا به پايين (Top-Down) يا تقسيم کننده (Divisive): در اين روش ابتدا تمام دادهها به عنوان يک خوشه در نظر گرفته ميشوند و سپس در طي يک فرايند تکراري در هر مرحله دادههايي شباهت کمتري به هم دارند به خوشههاي مجزايي شکسته ميشوند و اين روال تا رسيدن به خوشههايي که داراي يک عضو هستند ادامه پيدا ميکند. 2. پايين به بالا (Bottom-Up) يا متراکم شونده (Agglomerative): در اين روش ابتدا هر دادهها به عنوان خوشهاي مجزا در نظر گرفته ميشود و در طي فرايندي تکراري در هر مرحله خوشههايي که شباهت بيشتري با يکديگر با يکديگر ترکيب ميشوند تا در نهايت يک خوشه و يا تعداد مشخصي خوشه حاصل شود. از انواع الگوريتمهاي خوشهبندي سلسله مراتبي متراکم شونده رايج ميتوان از الگوريتمهاي Single-Link، Average-Link و Complete-Link نام برد. تفاوت اصلي در بين تمام اين روشها به نحوة محاسبة شباهت بين خوشهها مربوط ميشود. که در بخشهاي بعد به تشريح هر يک پرداخته خواهد شد. نمونهاي از روش خوشهبندي سلسله مراتبي و تفاوت بين روشهاي بالا به پايين و پايين به بالا در شکل زير مشاهده ميشود. http://ceit.aut.ac.ir/~shiry/lecture...s/image002.jpg شکل 3: تفاوت بين روشهاي بالا به پايين با روشهاي پايين به بالا |
خوشهبندي با روش Single-Link
اين روش يکي از قديميترين و سادهترين روشهاي خوشهبندي است و جزء روشهاي خوشهبندي سلسله مراتبي و انحصاري محسوب ميشود. به اين روش خوشهبندي، تکنيک نزديکترين همسايه (Nearest Neighbour) نيز گفته ميشود. در اين روش براي محاسبة شباهت بين دو خوشة A و B از معيار زير استفاده ميشود: http://ceit.aut.ac.ir/~shiry/lecture...s/image002.gif که i يک نمونه داده متعلق به خوشة A و j يک نمونه دادة متعلق به خوشة B ميباشد. در واقع در اين روش شباهت بين دو خوشه، کمترين فاصلة بين يک عضو از يکي با يک عضو از ديگري است. در شکل زير اين مفهوم بهتر نشان داده شده است http://ceit.aut.ac.ir/~shiry/lecture...s/image004.jpg شکل 4: شباهت بين دو خوشه در روش Single-Link برابر است با کمترين فاصلة بين دادههاي دو خوشه 1-1-1- مثال: در اين قسمت سعي شده است تا در مثالي با فرض داشتن 6 نمونه داده و ماتريس فاصلة بين آنها که در جدول 1 نشانداده شده است، نحوة اعمال روش خوشهبندي Single-Link بهتر تشريح شود جدول 1: ماتريس فاصلة بين 6 نمونة داده http://artificial2.persiangig.com/image/10.JPG در ابتدا هر داده به عنوان يک خوشه در نظر گرفته ميشود و يافتن نزديکترين خوشه در واقع يافتن کمترين فاصلة بين دادههاي بالا خواهد بود. با توجه به جدول 1 مشخص است که دادههاي 3 و 5 کمترين فاصله را دارا هستند. و در نتيجه آنها را با هم ترکيب کرده و خوشة جديدي حاصل ميشود که فاصلة آن از ساير خوشهها برابر است با کمترين فاصلة بين 3 و يا 5 از ساير خوشهها. نتيجه در جدول 2 نشان داده شده است. http://artificial2.persiangig.com/image/11.JPG با توجه به جدول 2 مشخص است که دادههاي 1 و 2 کمترين فاصله را دارا هستند. و در نتيجه آنها را با هم ترکيب کرده و خوشة جديدي حاصل ميشود که فاصلة آن از ساير خوشهها برابر است با کمترين فاصلة بين 1 و يا 2 از ساير خوشهها. نتيجه در جدول 3 نشان داده شده است. http://artificial2.persiangig.com/image/12.JPG با توجه به جدول 3 مشخص است که خوشههاي (3 و 5) و 4 کمترين فاصله را دارا هستند. و در نتيجه آنها را با هم ترکيب کرده و خوشة جديدي حاصل ميشود که فاصلة آن از ساير خوشهها برابر است با کمترين فاصلة بين (3 و 5) و يا 4 از ساير خوشهها. نتيجه در جدول 4 نشان داده شده است. http://artificial2.persiangig.com/image/13.JPG با توجه به جدول 4 مشخص است که خوشههاي (1 و 2) و 6 کمترين فاصله را دارا هستند. و در نتيجه آنها را با هم ترکيب کرده و خوشة جديدي حاصل ميشود که فاصلة آن از ساير خوشهها برابر است با کمترين فاصلة بين (1 و 2) و يا 6 از ساير خوشهها. نتيجه در جدول 5 نشان داده شده است. http://artificial2.persiangig.com/image/14.JPG در نهايت اين دو خوشة حاصل ا هم ترکيب ميشوند. نتيجه در دندوگرام شکل 5 نشان داده شده است. http://ceit.aut.ac.ir/~shiry/lecture...s/image005.gif شکل 5: دندوگرام مثال Single-Link |
خوشهبندي با روش Complete-Link
اين روش همانند Single-Link جزء روشهاي خوشهبندي سلسله مراتبي و انحصاري محسوب ميشود. به اين روش خوشهبندي، تکنيک دورترين همسايه (furthest Neighbour) نيز گفته ميشود. در اين روش براي محاسبة شباهت بين دو خوشة A و B از معيار زير استفاده ميشود: http://ceit.aut.ac.ir/~shiry/lecture...s/image002.gif که i يک نمونه داده متعلق به خوشة A و j يک نمونه دادة متعلق به خوشة B ميباشد. در واقع در اين روش شباهت بين دو خوشه بيشترين فاصلة بين يک عضو از يکي با يک عضو از ديگري است. در شکل زير اين مفهوم بهتر نشان داده شده است. http://ceit.aut.ac.ir/~shiry/lecture...s/image004.jpg شکل 6: شباهت بين دو خوشه در روش Complete-Link برابر است با بيشترين فاصلة بين دادههاي دو خوشه. مثال: در اين قسمت سعي شده است تا در مثالي با فرض داشتن 6 نمونه داده و ماتريس فاصلة بين آنها که در جدول 6 نشان داده شده است، نحوة اعمال روش خوشهبندي Complete-Link بهتر تشريح شود. http://artificial2.persiangig.com/image/15.JPG در ابتدا هر داده به عنوان يک خوشه در نظر گرفته ميشود و يافتن نزديکترين خوشه در واقع يافتن کمترين فاصلة بين دادههاي بالا خواهد بود. با توجه به جدول 6 مشخص است که دادههاي 3 و 5 کمترين فاصله را دارا هستند. و در نتيجه آنها را با هم ترکيب کرده و خوشة جديدي حاصل ميشود که فاصلة آن از ساير خوشهها برابر است با بيشترين فاصلة بين 3 و يا 5 از ساير خوشهها. نتيجه در جدول 7 نشان داده شده است. http://artificial2.persiangig.com/image/16.JPG با توجه به جدول 7 مشخص است که دادههاي 1 و 2 کمترين فاصله را دارا هستند. و در نتيجه آنها را با هم ترکيب کرده و خوشة جديدي حاصل ميشود که فاصلة آن از ساير خوشهها برابر است با بيشترين فاصلة بين 1 و يا 2 از ساير خوشهها. نتيجه در جدول 8 نشان داده شده است. http://artificial2.persiangig.com/image/17.JPG با توجه به جدول 8 مشخص است که خوشههاي (3 و 5) و 4 کمترين فاصله را دارا هستند. و در نتيجه آنها را با هم ترکيب کرده و خوشة جديدي حاصل ميشود که فاصلة آن از ساير خوشهها برابر است با بيشترين فاصلة بين (3 و 5) و يا 4 از ساير خوشهها. نتيجه در جدول 9 نشان داده شده است. http://artificial2.persiangig.com/image/18.JPG با توجه به جدول 9 مشخص است که خوشههاي (1 و 2) و 6 کمترين فاصله را دارا هستند. و در نتيجه آنها را با هم ترکيب کرده و خوشة جديدي حاصل ميشود که فاصلة آن از ساير خوشهها برابر است با بيشترين فاصلة بين (1 و 2) و يا 6 از ساير خوشهها. نتيجه در جدول 10 نشان داده شده است. http://artificial2.persiangig.com/image/19.JPG در نهايت اين دو خوشة حاصل ا هم ترکيب ميشوند. نتيجه در دندوگرام شکل 7 نشان داده شده است. http://ceit.aut.ac.ir/~shiry/lecture...s/image005.gif شکل 7: دندوگرام مثال Complete-Link |
خوشهبندي با روش Average-Link
اين روش همانند Single-Link جزء روشهاي خوشهبندي سلسله مراتبي و انحصاري محسوب ميشود. از آنجا که هر دو روش خوشهبندي Single-link و Complete-link بشدت به نويز حساس ميباشد، اين روش که محاسبات بيشتري دارد، پيشنهاد شد. در اين روش براي محاسبة شباهت بين دو خوشة A و B از معيار زير استفاده ميشود: http://ceit.aut.ac.ir/~shiry/lecture...s/image002.gif که i يک نمونه داده متعلق به خوشة A و j يک نمونه دادة متعلق به خوشة B ميباشد. و NA تعداد اعضاء خوشة A و NB تعداد اعضاء خوشة B است. در واقع در اين روش، شباهت بين دو خوشه ميانگين فاصلة بين تمام اعضاء يکي با تمام اعضاء ديگري است. در شکل زير اين مفهوم بهتر نشان داده شده است http://ceit.aut.ac.ir/~shiry/lecture...s/image004.jpg شکل 8: شباهت بين دو خوشه در روش Average-Link برابر است با ميانگين فاصلة بين دادههاي دو خوشه مثال: در اين قسمت سعي شده است تا در مثالي با فرض داشتن 6 نمونه داده و ماتريس فاصلة بين آنها که در جدول 11 نشان داده شده است، نحوة اعمال روش خوشهبندي Average-Link بهتر تشريح شود http://artificial2.persiangig.com/image/20.JPG در ابتدا هر داده به عنوان يک خوشه در نظر گرفته ميشود و يافتن نزديکترين خوشه در واقع يافتن کمترين فاصلة بين دادههاي بالا خواهد بود. با توجه به جدول 11 مشخص است که دادههاي 3 و 5 کمترين فاصله را دارا هستند. و در نتيجه آنها را با هم ترکيب کرده و خوشة جديدي حاصل ميشود که فاصلة آن از ساير خوشهها برابر است با ميانگين فاصلة بين 3 و 5 از ساير خوشهها. نتيجه در جدول 12 نشان داده شده است. http://artificial2.persiangig.com/image/21.JPG با توجه به جدول 12 مشخص است که دادههاي 1 و 2 کمترين فاصله را دارا هستند. و در نتيجه آنها را با هم ترکيب کرده و خوشة جديدي حاصل ميشود که فاصلة آن از ساير خوشهها برابر است با بيشترين فاصلة بين 1 و يا 2 از ساير خوشهها. نتيجه در جدول 13 نشان داده شده است http://artificial2.persiangig.com/image/22.JPG با توجه به جدول 13 مشخص است که خوشههاي (3 و 5) و 4 کمترين فاصله را دارا هستند. و در نتيجه آنها را با هم ترکيب کرده و خوشة جديدي حاصل ميشود که فاصلة آن از ساير خوشهها برابر است با بيشترين فاصلة بين (3 و 5) و يا 4 از ساير خوشهها. نتيجه در جدول 14 نشان داده شده است. http://artificial2.persiangig.com/image/23.JPG با توجه به جدول 14 مشخص است که خوشههاي (1 و 2) و 6 کمترين فاصله را دارا هستند. و در نتيجه آنها را با هم ترکيب کرده و خوشة جديدي حاصل ميشود که فاصلة آن از ساير خوشهها برابر است با بيشترين فاصلة بين (1 و 2) و يا 6 از ساير خوشهها. نتيجه در جدول 15 نشان داده شده است. http://artificial2.persiangig.com/image/24.JPG در نهايت اين دو خوشة حاصل ا هم ترکيب ميشوند. نتيجه در دندوگرام شکل 9 نشان داده شده است. http://ceit.aut.ac.ir/~shiry/lecture...s/image005.gif شکل 9: دندوگرام مثال Average-Link |
ديگر روشهاي خوشه بندي سلسله مراتبي
*خوشهبندي با روش Group Average Link: اين روش همانند Single-Link جزء روشهاي خوشهبندي سلسله مراتبي و انحصاري محسوب ميشود. [Webb] به اين روش Centriod Distance نيز گفته ميشود. در اين روش براي محاسبة شباهت بين دو خوشة A و B از معيار زير استفاده ميشود: http://ceit.aut.ac.ir/~shiry/lecture...s/image002.gif که Xi يک نمونه داده متعلق به خوشة A، Xj يک نمونه دادة متعلق به خوشة B، NA تعداد اعضاء خوشةA و NB تعداد اعضاء خوشة B است. در واقع در اين روش، شباهت بين دو خوشه فاصلة بين بردار ميانگينِ تمام اعضاء يکي با بردارِ ميانگينِ تمام اعضاء ديگري است. در شکل F4 اين مفهوم بهتر نشان داده شده است. * خوشهبندي با روش Median Distance: اين روش نيز همانند Single-Link جزء روشهاي خوشهبندي سلسله مراتبي و انحصاري محسوب ميشود. در روش Group Average Link اگر يم خوشة کوچک با يک خوشة بزرگ ترکيب شود نقطة ميانگين خوشة حاصل نقطهاي نزديک ميانگين خوشة بزرگتر خواهد بود که در بعضي از کاربردها چندان مطلوب نيست. بدين منظور اين روش خوشهبندي پيشنهاد شده است که مشکل مذکور را ندارد. در اين روش از ميانة نقاط يک خوشه به عنوان مرکز ثقل آن خوشه استفاده ميشود. http://ceit.aut.ac.ir/~shiry/lecture...s/image004.jpg شکل 10: شباهت بين دو خوشه در روش Group Average Link برابر است با فاصله بين ميانگين نقاط دو خوشه * خوشهبندي با روش Ward: اين روش نيز همانند Single-Link جزء روشهاي خوشهبندي سلسله مراتبي و انحصاري محسوب ميشود. در اين روش خوشهبندي براي کاهش تلفات ناشي دادههاي دور افتاده (Outlier) از معياري جديد براي محاسبة عدمشباهت بين خوشهها استفاده ميکند. در روش Ward's از مجموع مربعات تفاضل هر داده از يک خوشه با بردار ميانگين آن خوشه به عنوان معياري براي سنجش يک خوشة استفاده ميشود. الگوريتم زير را ميتوان براي روش Ward در نظر گرفت. 1. ابتدا هر داده به عنوان يک خوشه در نظر گرفته ميشود. 2. به ازاء تمام جفت خوشههاي ممکن از مجموعة خوشهها آن دو خوشهاي که مجموع مربعات تفاضل دادههاي خوشة حاصل از اجتماع آنها با بردار ميانگين خوشة حاصل کمينه باشد، انتخاب ميشوند. 3. دو خوشة انتخاب شده با هم ترکيب ميشوند. 4. تا زماني که تعداد خوشهها به تعداد مورد نظر نرسيده است، مراحل ii، iii و iv تکرار ميشوند |
الگوريتم خوشهبندي پايين به بالاي عمومي
اغلب الگوريتمهاي خوشهبندي سلسله مراتبي را به نحوي ميتوان گسترش يافتة الگوريتم خوشهبندي Single-Link در نظر گرفت. تفاوت روشهاي مختلف در نحوة محاسبة ماتريس تشابه يا عدم تشابه (Dissimilaritye) آنها است. فرمولي بازگشتي به نام فرمول Lance-Williams تعريف شده است که عدمتشابه بين خوشة k و خوشة حاصل از پيوند خوشههاي i و j را بيان ميکند: http://ceit.aut.ac.ir/~shiry/lecture...s/image002.gif که پارامترهاي ai، b و c بيان کنندة نوع روش خوشهبندي هستند و در جدول 16 مقادير مربوط به چند روش آورده شده است: http://artificial2.persiangig.com/image/25.JPG |
روش خوشهبندي K-Means (C-Means يا C-Centeriod)
اين روش عليرغم سادگي آن يک روش پايه براي بسياري از روشهاي خوشهبندي ديگر (مانند خوشهبندي فازي) محسوب ميشود. اين روش روشي انحصاري و مسطح محسوب ميشود.[1] براي اين الگوريتم شکلهاي مختلفي بيان شده است. ولي همة آنها داراي روالي تکراري هستند که براي تعدادي ثابت از خوشهها سعي در تخمين موارد زير دارند: · بدست آوردن نقاطي به عنوان مراکز خوشهها اين نقاط در واقع همان ميانگين نقاط متعلق به هر خوشه هستند. · نسبت دادن هر نمونه داده به يک خوشه که آن داده کمترين فاصله تا مرکز آن خوشه را دارا باشد. در نوع سادهاي از اين روش ابتدا به تعداد خوشههاي مورد نياز نقاطي به صورت تصادفي انتخاب ميشود. سپس در دادهها با توجه با ميزان نزديکي (شباهت) به يکي از اين خوشهها نسبت داده ميشوند و بدين ترتيب خوشههاي جديدي حاصل ميشود. با تکرار همين روال ميتوان در هر تکرار با ميانگينگيري از دادهها مراکز جديدي براي آنها محاسبه کرد و مجدادأ دادهها را به خوشههاي جديد نسبت داد. اين روند تا زماني ادامه پيدا ميکند که ديگر تغييري در دادهها حاصل نشود. تابع زير به عنوان تابع هدف مطرح است. http://ceit.aut.ac.ir/~shiry/lecture...s/image001.gif که ║║ معيار فاصلة بين نقاط و cj مرکز خوشة j ام است. الگوريتم زير الگوريتم پايه براي اين روش محسوب ميشود: 1. در ابتدا K نقطه به عنوان به نقاط مراکز خوشهها انتخاب ميشوند. 2. هر نمونه داده به خوشهاي که مرکز آن خوشه کمترين فاصله تا آن داده را داراست، نسبت داده ميشود. 3. پس تعلق تمام دادهها به يکي از خوشهها براي هر خوشه يک نقطه جديد به عنوان مرکز محاسبه ميشود. (ميانگين نقاط متعلق به هر خوشه) 4. مراحل 2 و 3 تکرار ميشوند تا زماني که ديگر هيچ تغييري در مراکز خوشهها حاصل نشود. مثالي براي روش خوشهبندي K-Means: در شکل زير نحوة اعمال اين الگوريتم خوشهبندي روي يک مجموعه داده که شامل دو گروه داده است نشان داده شده است. يک گروه از دادهها با ستاره و گروه ديگر با دايره مشخص شده اند(a). در مرحله اول نقطهاي به عنوان مرکز خوشهها انتخاب شده اند که با رنگ قرمز نشانداده شده اند(b). سپس در مرحله دوم هر يک از نمونه دادهها به يکي از اين دو خوشه نسبت داده شده است و براي هر دسته جديد مرکزي جديد محاسبه شده سات که در قسمت c نشان داده شده اند. اين روال تا رسيدن به نقاطي که ديگر تغيير نميکنند، ادامه پيدا کرده است. http://ceit.aut.ac.ir/~shiry/lecture...s/image003.gif a http://ceit.aut.ac.ir/~shiry/lecture...s/image005.gif b http://ceit.aut.ac.ir/~shiry/lecture...s/image007.gif c http://ceit.aut.ac.ir/~shiry/lecture...s/image009.gif d http://ceit.aut.ac.ir/~shiry/lecture...s/image011.gif e http://ceit.aut.ac.ir/~shiry/lecture...s/image013.gif f شکل 11: مثالي براي روش خوشهبندي K-Means مشکلات روش خوشهبندي K-Means عليرغم اينکه خاتمهپذيري الگوريتم بالا تضمين شده است ولي جواب نهايي آن واحد نبوده و همواره جوابي بهينه نميباشد. به طور کلي روش ساده بالا داراي مشکلات زير است. * جواب نهايي به انتخاب خوشههاي اوليه وابستگي دارد. * روالي مشخص براي محاسبة اولية مراکز خوشهها وجود ندارد. * اگر در تکراري از الگوريتم تعداد دادههاي متعلق به خوشهاي صفر شد راهي براي تغيير و بهبود ادامة روش وجود ندارد. * در اين روش فرض شده است که تعداد خوشهها از ابتدا مشخص است. اما معمولا در کاربردهاي زيادي تعداد خوشهها مشخص نميباشد. الگوريتم خوشهبندي LBG همانگونه که ذکر شد الگوريتم خوشهبندي K-Means به انتخاب اولية خوشهها بستگي دارد و اين باعث ميشود که نتايج خوشهبندي در تکرارهاي مختلف از الگوريتم متفاوت شود که اين در بسياري از کاربردها قابل نيست. براي رفع اين مشکل الگوريتم خوشهبندي LBG پيشنهاد شد که قادر است به مقدار قابل قبولي بر اين مشکل غلبه کند.[7] در اين روش ابتدا الگوريتم تمام دادهها را به صورت يک خوشه در نظر ميگيرد و سپس براي اين خوشه يک بردار مرکز محاسبه ميکند.(اجراي الگوريتم K-Means با تعداد خوشة 1K=). سپس اين بردار را به 2 بردار ميشکند و دادهها را با توجه به اين دو بردار خوشهبندي ميکند (اجراي الگوريتم K-Means با تعداد خوشة K=2 که مراکز اوليه خوشهها همان دو بردار هستند). در مرحلة بعد اين دو نقطه به چهار نقطه شکسته ميشوند و الگوريتم ادامه پيدا ميکند تا تعداد خوشة مورد نظر توليد شوند. الگوريتم زير را ميتوان براي اين روش خوشهبندي در نظر گرفت: 1. شروع: مقدار M(تعداد خوشهها) با عدد 1 مقدار دهي اوليه ميشود. سپس براي تمام دادهها بردار مرکز محاسبه ميشود. 2. شکست: هر يک از M بردار مرکز به 2 بردار جديد شکسته ميشوند تا 2M بردار مرکز توليد شود. هر بردار جديد بايستي درون همان خوشه قرار داشته باشد و به اندازة کافي از هم دور باشند. 3. K-Means: با اجراي الگوريتم K-Means با تعداد خوشة 2M و مراکز اوليه خوشههاي محاسبه شده در مرحلة ii خوشههاي جديدي با مراکز جديد توليد ميشود. 4. شرط خاتمه: در صورتي که M برابر تعداد خوشة مورد نظر الگوريتم LBG بود الگوريتم خاتمه مييابد و در غير اين صورت به مرحلة ii رفته و الگوريتم تکرار ميشود. |
خوشهبندي بر اساس چگالي
اين روشهاي خوشهبندي بر اين اصل استوارند که خوشهها، ناحيههايي از فضاي داده با چگالي زيادي هستند که توسط نواحي با چگالي کمتر از همديگر جدا شدهاند. براي پيادهسازي اين روشهاي خوشهبندي لازم است تا ابتدا اصطلاحاتي تعريف شوند: چگالي نقاط محلي در نقطة P (Local Point Density) : اگر P را نقطة هستة يک همسايگي و ε شعاع همسايگي براي نقطة P در نظر گرفته شود آنگاه همسايگي به شعاع ε براي نقطة P به صورت زير تعريف ميشود: http://ceit.aut.ac.ir/~shiry/lecture...s/image002.gif به تعداد نقاط قرار گرفته شده درون يک همسايگيِ داده شده چگالي نقاط آن همسايگي گفته ميشود. http://ceit.aut.ac.ir/~shiry/lecture...s/image004.jpg شکل 12: يک همسايگي براي P داراي چگالي نقاط 5 در دسترسِ مستقيمِ چگالي (Directly Density-Reachable): دادة p را در دسترسِ مستقيمِ چگاليِ q گويند اگر p درون يک همسايگي به شعاع ε با هستة q باشد. در شکل زير بهتر ميتوان اين مفهوم را درک کرد. http://ceit.aut.ac.ir/~shiry/lecture...s/image006.jpg شکل 13: p در دسترسِ مستقيمِ چگاليِ q قرار دارد. در دسترسِ چگالي (Density-Reachable): دادة p را در دسترسِ چگاليِ q گويند اگر دادهاي وجود داشته باشد که هم درون يک همسايگي به شعاع ε با هستة p و هم درون يک همسايگي به شعاع ε با هستة q باشد. در شکل زير بهتر ميتوان اين مفهوم را درک کرد http://ceit.aut.ac.ir/~shiry/lecture...s/image008.gif شکل 14: p در دسترسِ چگاليِ q قرار دارد. متصلِ چگالي (Density-Connected): دادة p را متصلِ چگاليِ q گويند اگر دادهاي مانند o وجود داشته باشد که هم در دسترسِ چگاليِ p و هم در دسترسِ چگاليِ q باشد. در شکل زير بهتر ميتوان اين مفهوم را درک کرد. http://ceit.aut.ac.ir/~shiry/lecture...s/image010.gif شکل 15: p متصلِ چگاليِ q است خوشة مبتني بر چگالي (Density-Based Cluster): زير مجموعهاي غيرتهي(S) از مجموعة دادهها (D) که داراي دو شرط زير باشد: § حداکثر: اگر p درون S باشد و q در دسترسِ چگاليِ p باشد آنگاه q نيز متعلق به S باشد. § اتصال: هر دادة درون S متصلِ چگاليِ ساير دادههاي درون S باشد. o خوشهبندي بر اساس چگالي (Density-Based Clustering): خوشهبندي بر اساس چگالي بر روي مجموعة دادة D مجموعهاي به صورت {S1, …, Sn, N} است که : § S1, …, Sn تمام خوشههاي مبتني چگاليِ درون D است. § N=D\{ S1, …, Sn } مجموعة نويز خوانده ميشود. http://ceit.aut.ac.ir/~shiry/lecture...s/image012.jpg شکل 16: خوشهبندي بر اساس چگالي الگوريتم خوشهبندي براساس چگالي DBSCAN: در اين روش خوشهبندي هر دادة متعلق به خوشة C در دسترس چگالي ساير دادههاي متعلق به آن خوشه است و در دسترس چگالي هيچ دادة ديگري قرار ندارد. شبه کد اين الگوريتم را زير مشاهده ميکنيد. http://ceit.aut.ac.ir/~shiry/lecture...s/image014.gif 1-1-1- مثالي از الگوريتم خوشهبندي براساس چگالي DBSCAN: در شکل زير سعي شده است تا نحوة اعمال الگوريتم خوشهبندي DBSCAN را بر روي يک مجموعه داده نشان داده شود. همانگونه که مشاهده ميشود، اين الگوريتم نوانسته است به خوبي دادهها را خوشهبندي کند. ahttp://ceit.aut.ac.ir/~shiry/lecture...s/image018.jpg bhttp://ceit.aut.ac.ir/~shiry/lecture...s/image016.gif c: http://ceit.aut.ac.ir/~shiry/lecture...s/image022.jpg d: http://ceit.aut.ac.ir/~shiry/lecture...s/image020.jpg f : http://ceit.aut.ac.ir/~shiry/lecture...s/image024.jpg شکل 17: مثالي از روش خوشهبندي DBSCAN الگوريتم سلسله مراتبي خوشهبندي براساس چگالي OPTICS: در اين روش سعي ميشود تا با تکنيکي سلسله مراتبي خوشههاي بزرگتري را از ترکيب خوشهاي داراي چگالي زياد ولي کوچکتر محاسبه کرد. در شکل زير با يک بار اعمال الگوريتم خوشهبندي DBSCAN خوشههاي C1 و C2 حاصل گشتهاند که در مرحلة ديگري با هم ترکيب شده و خوشة بزرگتر C را ساختهاند. در اين روش با افزايش تعداد تکرار مقدار پارامتر ε افزايش مييابد. http://ceit.aut.ac.ir/~shiry/lecture...s/image026.gif شکل 18: در روش سلسله مراتبي خوشهبندي براساس چگالي OPTICS از ترکيب خوشههاي با چگالي زياد و کوچک خوشههاي بزرگتري حاصل ميشود. مزاياي خوشهبندي بر اساس چگالي a. خوشهها ميتوانند داراي اشکال دلخواه باشند. b. تعداد خوشهها به صورت اتوماتيک همزمان با عمل خوشهبندي تعيين ميشود. c. در تشخيص نويزها بسيار کارا هستند. |
بررسي تکنيکهاي اندازهگيري اعتبار خوشهها
نتايج حاصل از اعمال الگوريتمهاي خوشهبندي روي يک مجموعه داده با توجه به انتخابهاي پارامترهاي الگوريتمها ميتواند بسيار متفاوت از يکديگر باشد. هدف از اعتبارسنجي خوشهها يافتن خوشههايي است که بهترين تناسب را با دادههاي مورد نظر داشته باشند. دو معيارِ پاية اندازهگيري پيشنهاد شده براي ارزيابي و انتخاب خوشههاي بهينه عبارتند از:[8] * تراکم (Compactness): دادههاي متعلق به يک خوشه بايستي تا حد ممکن به يکديگر نزديک باشند. معيار رايج براي تعيين ميزان تراکم دادهها واريانس دادهها است. * جدايي (Separation): خوشهها خود بايستي به اندازه کافي از يکديگر جدا باشند. سه راه براي سنجش ميزان جدايي خوشهها مورد استفاده قرار ميگيرد که عبارتند از: * فاصلة بين نزديکترين دادهها از دو خوشه * فاصلة بين دورترين دادهها از دو خوشه * فاصلة بين مراکزخوشهها همچنين روشهاي ارزيابي خوشههاي حاصل از خوشهبندي را به صورت سه دسته تقسيم ميکنند که عبارتند از: * معيارهاي خروجي (External Criteria) * معيارهاي دروني (Internal Criteria) * معيارهاي نسبي (Relative Criteria) هم معيارهاي خروجي و هم معيارهاي دروني بر مبناي روشهاي آماري عمل ميکنند و پيچيدگي محاسباتي بالايي را نيز دارا هستند. معيارهاي خروجي عمل ارزيابي خوشهها را با استفاده از بينش خاص کاربران انجام ميدهند. معيارهاي دروني عمل ارزيابي خوشهها را با استفاده از مقاديري که از خوشهها و نماي آنها محاسبه ميشود، انجام ميدهند. پايه معيارهاي نسبي، مقايسة بين شماهاي خوشهبندي (الگوريم به علاوة پارامترهاي آن) مختلف است. يک و يا چندين روش مختلف خوشهبندي چندين بار با پارامترهاي مختلف روي يک مجموعة داده اجرا ميشوند و بهترين شماي خوشهبندي از بين تمام شماها انتخاب ميشود. در اين روش مبناي مقايسه، شاخصهاي اعتبارسنجي (Validity-Index) هستند. شاخصهاي ارزيابي بسيار متنوعي پيشنهاد شدهاند که در اين قسمت سعي ميشوند تعدادي از رايجترين آنها معرفي شوند. شاخصهاي اعتبارسنجي شاخصهاي اعتبارسنجي براي سنجش ميزان صحت (Goodness) نتايج خوشهبندي به منظور مقايسة بين روشهاي خوشهبندي مختلف يا مقايسة نتايج حاصل از يک روش با پارامترهاي مختلف مورد استفاده قرار ميگيرند. در جدول زير مجموعهاي از علائم استفاده شده در ادامة اين بخش ارائه شده است: http://artificial2.persiangig.com/image/26.JPG 1-1-1- شاخص دون (Dunn Index) اين معيار توسط رابطة زير تعريف ميشود: http://ceit.aut.ac.ir/~shiry/lecture...s/image024.gif که d(x,y) و diam(ci) در آن به ترتيب با روابط 9 و 10 محاسبه ميشوند. http://ceit.aut.ac.ir/~shiry/lecture...s/image026.gif http://ceit.aut.ac.ir/~shiry/lecture...s/image028.gif اگر مجموعة دادهاي، داراي خوشههايي جداپذير باشد، انتظار ميرود فاصلة بين خوشهها زياد و قطر خوشههاي (Diameter) آن کوچک باشد. در نتيجه مقداري بزرگتر براي رابطة اين معيار مقداري مطلوبتر است. معايب اين معيار عبارتند از: * محاسبة زمانبر * حساسيت به نويز (قطر خوشهها در صورت وجود يک دادة نويزي ميتواند بسيار تغيير کند.) 1-1-2- شاخص ديويس بولدين (Davies Bouldin Index) اين معيار از شباهت بين دو خوشه (Rij) استفاده ميکند که بر اساس پراکندگي يک خوشه (si) و عدم شباهت بين دو خوشه (dij) تعريف ميشود. شباهت بين دو خوشه را ميتوان به صورتهاي مختلفي تعريف کرد ولي بايستي شرايط زير را دارا باشد. *http://ceit.aut.ac.ir/~shiry/lecture...s/image030.gif *http://ceit.aut.ac.ir/~shiry/lecture...s/image032.gif * اگر si و sj هر دو برابر صفر باشند آنگاه Rij نيز برابر صفر باشد. * اگر http://ceit.aut.ac.ir/~shiry/lecture...s/image034.gif و http://ceit.aut.ac.ir/~shiry/lecture...s/image036.gif آنگاه http://ceit.aut.ac.ir/~shiry/lecture...s/image038.gif * اگر http://ceit.aut.ac.ir/~shiry/lecture...s/image040.gifو http://ceit.aut.ac.ir/~shiry/lecture...s/image042.gifآنگاه http://ceit.aut.ac.ir/~shiry/lecture...s/image043.gif معمولا شباهت بين دو خوشه به صورت زير تعريف ميشود: http://ceit.aut.ac.ir/~shiry/lecture...s/image045.gif که در آن dij و si با روابط زير محاسبه ميشوند. http://ceit.aut.ac.ir/~shiry/lecture...s/image047.gif http://ceit.aut.ac.ir/~shiry/lecture...s/image049.gif با توجه به مطالب بيان شده و تعريف شباهت بين دو خوشه شاخص ديويس بولدين به صورت زير تعريف ميشود. http://ceit.aut.ac.ir/~shiry/lecture...s/image051.gif که Ri در آن به صورت زير محاسبه ميشود. http://ceit.aut.ac.ir/~shiry/lecture...s/image053.gif اين شاخص در واقع ميانگين شباهت بين هر خوشه با شبيهترين خوشة به آن را محاسبه ميکند. ميتوان دريافت که هرچه مقدار اين شاخص بيشتر باشد، خوشههاي بهتري توليد شده است. 1-1-3- شاخصهاي اعتبارسنجي ريشة ميانگين مربع انحراف از معيار (RMSSDT) و ريشة R (RS): هرچند اين شاخصها معمولا در اعتبارسنجي الگوريتمهاي سلسله مراتبي مورد استفاده قرار ميگيرند ولي قابليت ارزيابي نتايج ساير تکنيکهاي خوشهبندي را نيز دارا ميباشند. در شاخص اعتبارسنجي RMSSDT (root – mean– square standard deviation) از واريانس خوشهها استفاده ميشود که به شکل رسمي ميتوان از رابطة 16 براي محاسبه آن استفاده کرد. http://ceit.aut.ac.ir/~shiry/lecture...s/image055.gif با توجه به رابطة بالا و اينکه اين معيار ميزان همگني خوشهها را اندازه ميگيرد، ميتوان دريافت که هرچه مقدار آن کمتر باشد نشان دهندة خوشهبندي بهتر دادهها است. شاخص اعتبارسنجي RS (R Square) که با استفاده از رابطة 17، 18 و 19 تعريف ميشود، معياري براي بيان عدمتشابه بين خوشهها است. به اين شاخص درجة همگني بين گروهي نيز گفته ميشود. مقادير آن به بازة اعداد بين 0 تا 1 محدود ميباشد. که 0 نشان دهندة نبودن هيچ تفاوتي بين خوشهها و 1 نشان دهندة وجود تفاوتي قابل توجه بين خوشهها است. http://ceit.aut.ac.ir/~shiry/lecture...s/image057.gif http://ceit.aut.ac.ir/~shiry/lecture...s/image059.gif http://ceit.aut.ac.ir/~shiry/lecture...s/image061.gif 1-1-4- شاخص اعتبارسنجي sd اساس شاخص اعتبارسنجي SD، مياگين پراکندگي (Avrage Scattering) و جدايي کلي (Total Sepration) خوشهها است. پراکندگي از طريق محاسبة واريانس خوشهها و واريانس کل محموعة دادهها بدست ميآيد. با توجه به اينکه اين معيار هم از ميزان همگني دادهها و هم از ميزان تراکم خوشهها بهره ميبرد معيار مناسبي براي ارزيابي خوشهها محسوب ميشود. واريانس مجموعة دادهها را با روابط 20 و 21 و نيز واريانس يک خوشه را با روابط 22 و 23 ميتوان محاسبه کرد. واريانس مجموعه داده ها: http://ceit.aut.ac.ir/~shiry/lecture...s/image065.gif http://ceit.aut.ac.ir/~shiry/lecture...s/image069.gif واريانس يک خوشه: http://ceit.aut.ac.ir/~shiry/lecture...s/image063.gif http://ceit.aut.ac.ir/~shiry/lecture...s/image067.gif با توجه به واريانسهاي محاسبه شده با روابط بالا، ميانگين پراکندگي خوشهها از رابطة زير محاسبه ميشود. http://ceit.aut.ac.ir/~shiry/lecture...s/image071.gif همچنين ميزان جدايي کلي دادهها که بر اساس فاصلة مراکز خوشهها از هم تعريف ميشود، از رابطة زير محاسبه ميشود. http://ceit.aut.ac.ir/~shiry/lecture...s/image073.gif در نهايت شاخص SD با رابطة زير تعريف ميشود. http://ceit.aut.ac.ir/~shiry/lecture...s/image075.gif که α عمل وزني براي رابطه است که برابر ميزان جدايي خوشهها در صورت داشتن حداکثر تعداد خوشهها ميباشد. مقدار محاسبه شده توسط اين معيار هرچه کوچکتر باشد به معني خوشهبندي بهتر است. 1-1-5- شاخص اعتبارسنجي S_Dbw همانند شاخص SD اين معيار هم بر اساس تراکم درونخوشهاي و ميزان جدايي خوشهها اما در اين شاخص سعي شده تا چگالي خوشهها نيز دخيل شود. به شکل رسمي ميتوان گفت که شاخص S_Dbw از واريانس بين خوشهاي و واريانس درون خوشهاي استفاده ميکند. واريانس بين خوشهها مقدار ميانگين پراکندگي خوشهها را بدست ميآورد که در رابطة 24 نحوة محاسبة آن بيان شده است. مقدار چگالي درون خوشهاي نيز با رابطة زير محاسبه ميشود. http://ceit.aut.ac.ir/~shiry/lecture...s/image077.gif که uij که در آن نقطة وسط خطي است که vi و vj را به هم وصل ميکند. براي محاسبة تابع چگالي اطراف يک نقطه، تعداد نقاط درون ابر کرهاي را که شعاع آن برابر ميانگين انحراف از معيار خوشهها است، شمارش ميشود. ميانگين انحراف از معير خوشهها به صورت زير تعريف ميشود. http://ceit.aut.ac.ir/~shiry/lecture...s/image079.gif در نهايت معيار S_Dbw به صورت زير تعريف ميشود. http://ceit.aut.ac.ir/~shiry/lecture...s/image081.gif در شاخص S_Dbw سعي شده هر دو معيار خوبي خوشهها با هم ترکيب شوند و تخميني دقيق از خوشههاي خاصل بدست آيد. مقدار کم براي اين شاخص به معني خوشهبندي بهتر است. |
1-2- آزمايش ومقايسه کارايي شاخصهاي اعتبار سنجي
در اينجا با آزمايش سعي ميشود کارايي 4 شاخص از شاخصهاي خوشهبندي بالا با هم مقايسه شوند. براي اين منطور از سه دسته داده با ويژگيهاي متفاوت استفاده ميشود. º خوشههاي کاملا جدا: دادههاي متعلق به هر خوشه در کاملا به هم نزديک هستند. شکل 19.a º خوشههاي حلقهاي شکل: خوشهاي که خوشهاي ديگر درون آن قرار دارد. شکل 19.b º خوشههاي با شکل دلخواه: دو خوشه با شکلي دلخواه. شکل 19.c http://ceit.aut.ac.ir/~shiry/lecture...s/image083.gif a http://ceit.aut.ac.ir/~shiry/lecture...s/image085.gif b http://ceit.aut.ac.ir/~shiry/lecture...s/image087.gif c شکل 19: مجموعه دادههاي بکار رفته براي مقايسة کارايي شاخصهاي اعتبارسنجي خوشهها در آزمايش اول از الگوريتم K-Means استفاده شده به گونهاي که يک بار نتيجه درست و بار ديکر نتيجة نادرستي از آن حاصل شده است. سپس نتايج با 4 شاخص دون، ديويس بلودين، SD و D_Dbw اعتبارسنجي شدهاند که در مقادير مربوطه در شکل 20 نشان داده شدهاند http://ceit.aut.ac.ir/~shiry/lecture...s/image089.gif شکل20: مقادير مربوط به شاخصهاي اعتبار بر روي نتايج حاصل از خوشهبندي دادهها کاملا مجزا در آزمايش دوم نتايج حاصل از خوشهبندي مجموعه دادههاي حلقوي شکل که يک بار با روش K-Means به صورت نادرستي خوشهبندي شدهاند و بار ديگر با روش DBSCAN به درستي خوشهبندي شدهاند، با هم مقايسه شدهاند. مقادير محاسبه شده براي شاخصها در شکل 21 نشان داده شده است. http://ceit.aut.ac.ir/~shiry/lecture...s/image091.gif شکل 21: مقادير مربوط به شاخصهاي اعتبار بر روي نتايج حاصل از خوشهبندي دادهها حلقوي نتايج نشان ميدهند که شاخص دون و S_Dbw مقادير صحيحي ولي دو شاخص ديگر مقادير اشتباهي را بدست آوردهند. در آزمايش آخر دادههاي با شکل دلخواه به صورتي که در شکل 22 مشاهده ميشوند خوشهبندي شدهاند که مقادير حاصل از شاخصها بر روي آنها در شکل 23 مشاهده ميشود. http://ceit.aut.ac.ir/~shiry/lecture...s/image093.gif شکل 22: دو حالت خوشهبندي درست و نادرست دادههاي با شکل دلخواه http://ceit.aut.ac.ir/~shiry/lecture...s/image095.gif شکل 23: مقادير مربوط به شاخصهاي اعتبار بر روي نتايج حاصل از خوشهبندي دادهها با شکل دلخواه نتايج اين آزمايش نشان ميدهد که تنها شاخص دون مقادير صحيحي را محاسبه کرده است. |
1(ها)ضميمه
خلاصه و نتيجهگيري
خوشهبندي همانگونه که بيان شد، به کشف گروههايي از دادههاي مشابه درون مجموعهاي از دادهها ميپردازد، بدون هيچ اطلاع قبلي از کلاسهاي مربوط به دادهها. انواعي از روشهاي خوشهبندي تاکنون ارائه شدهاندکه وابسته به کاربرد ميتوان از آنها استفاده کرد. در ادامه گروهي از اين روشهاي که به الگوريتمهاي سلسله مراتبي خوشهبندي معروف هستند و يک نمودار که اولويت ترکيب دادهها براي توليد خوشهها را ارائه ميدهد، بررسي شد. سپس روش خوشهبندي K-Means که روشي پايهاي براي بسياري از روشهاي خوشهبندي جديد محسوب ميشود، معرفي شد. پس از آن چند تکنيک خوشهبندي ديگر که از چگالي دادهها براي خوشهبندي استفاده ميکنند، ارائه شدند که اين روش براي خوشهبندي دادههاي با اشکال دلخواه بسيار بهتر از ساير روشها عمل ميکنند. در ادامه تکنيکهايي براي ارزيابي و سنجش خوشههاي حاصل از خوشهبندي ارائه شده که از طريق آنها ميتوان پارامترهاي هر يک از روشهاي مذکور را به صورتي که نتيجة بهتري حاصل شود تعيين کرد. با توجه به کاربرد روزافزون خوشهبندي، امروزه شاهد ارائة روشهاي جديد و کاراتري هستيم که هر يک براي کاربردي خاص ارائه ميشود. همچين شاخصهاي اعتبارسنجي زيادي نيز براي بهترکردن نتيجة خوشهبندي معرفي ميشوند ولي با همة اين تلاشها هنوز خوشهبندي در بسياري از علوم آنچنان که بايد بکار گرفته شود، مورد استفاده قرار نگرفته است قابليت گسترش بسيار زيادي براي آن وجود دارد. در فايل pdf زير همه ي مطالب جمع آوري شده :113::8: |
برنامه اینا رو کسی نوشته؟ یعنی کد ساده ای در این مورد وجود داره؟
|
خوشه بندی سلیله مراتبی با متلب
اگه بلدید لطفا راهنمایی کنید
|
نقل قول:
|
با سلام و وقت بخیر ممنون میشم منبع و درصورت بودن مقالاتی که این متن از آن برداشت شده اند بفرمایید،خیلی ضروریه برام ،با تشکر فراوان
http://artificial.ir/intelligence/thread1464.html مقدمهاي بر خوشهبندي خوشهبندي را ميتوان به عنوان مهمترين مسئله در يادگيري بدون نظارت در نظر گرفت. خوشهبندي با يافتن يک ساختار درون يک مجموعه از دادههاي بدون برچسب درگير است. خوشه به مجموعهاي از دادهها گفته ميشود که به هم شباهت داشته باشند. در خوشهبندي سعي ميشود تا دادهها به خوشههايي تقسيم شوند که شباهت بين دادههاي درون هر خوشه حداکثر و شباهت بين دادههاي درون خوشههاي متفاوت حداقل شود. شکل 1: در اين شکل نمونهاي از اعمال خوشهبندي روي يک مجموعه از دادهها مشخص شده است که از معيار فاصله(Distance) به عنوان عدم شباهت(Dissimilarity) بين دادهها استفاده شده است. خوشهبندي در مقابل طبقهبندي در طبقهبندي هر داده به يک طبقه (کلاس) از پيشين مشخص شده تخصيص مييابد ولي در خوشهبندي هيچ اطلاعي از کلاسهاي موجود درون دادهها وجود ندارد و به عبارتي خود خوشهها نيز از دادهها استخراج ميشوند. در شکل زير تفاوت بين خوشهبندي و طبقهبندي بهتر نشان داده شده است. ایرانی2017 آنلاين است ارجاع دادن پيام |
زمان محلي شما با تنظيم GMT +3.5 هم اکنون ۰۴:۱۵ بعد از ظهر ميباشد. |
Powered by vBulletin® Version 3.8.3
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Search Engine Friendly URLs by vBSEO 3.1.0 ©2007, Crawlability, Inc.