مقدمهاي بر خوشهبندي
خوشهبندي را ميتوان به عنوان مهمترين مسئله در يادگيري بدون نظارت در نظر گرفت. خوشهبندي با يافتن يک ساختار درون يک مجموعه از دادههاي بدون برچسب درگير است. خوشه به مجموعهاي از دادهها گفته ميشود که به هم شباهت داشته باشند. در خوشهبندي سعي ميشود تا دادهها به خوشههايي تقسيم شوند که شباهت بين دادههاي درون هر خوشه حداکثر و شباهت بين دادههاي درون خوشههاي متفاوت حداقل شود.
شکل 1: در اين شکل نمونهاي از اعمال خوشهبندي روي يک مجموعه از دادهها مشخص شده است که از معيار فاصله(Distance) به عنوان عدم شباهت(Dissimilarity) بين دادهها استفاده شده است.
خوشهبندي در مقابل طبقهبندي
در طبقهبندي هر داده به يک طبقه (کلاس) از پيشين مشخص شده تخصيص مييابد ولي در خوشهبندي هيچ اطلاعي از کلاسهاي موجود درون دادهها وجود ندارد و به عبارتي خود خوشهها نيز از دادهها استخراج ميشوند. در شکل زير تفاوت بين خوشهبندي و طبقهبندي بهتر نشان داده شده است.
a
b
شکل 2: a) در طبقهبندي با استفاده يک سري اطلاعات اوليه دادهها به دستههاي معلومي نسبت داده ميشوند. در خوشهبندي دادهها با توجه به الگوريتم انتخاب شده به خوشههايي نسبت داده ميشوند