clustering - صفحه 2 - Artificial Intelligence

**aminkop** · ۰۱-۱۶-۱۳۹۰, ۱۲:۱۶ بعد از ظهر

نقل قول:

نوشته اصلي بوسيله taha_mokfi

ضمنا این رو همه موافقت کنیم که به جز روش های سلسله مراتبی خوشه بندی، سایر روش ها حتما حتما باید در ابتدا تعداد خوشه ها مشخص باشه تا الگوریتم شروع بشه.

سلام

احتراما این مساله که گفتید صحیح نیست چون روش هایی وجود داره که نیاز به تعیین تعداد خوشه در ابتدا نیست مانند DBSCAN و OPTICS (این روش ها فقط دو مقدار در ابتدا نیاز داره که تصادفی تعیین میشه و یا تخمین آن راهکارهایی ساده دارد و روش OPTICS که بهبود یافته آن است و بطور خودکار مقادیر را بهبود می دهد و outlier detection را هم انجام می دهد که خیلی مزیت مناسبی است)
غیر از این روش ها روش هایی هم مانند (buble و dencule اگر درست یادم بیاد) هم وجود داره میتونه ایده هایی برای تخمین تعداد خوشه بده.

**taha_mokfi** · ۰۱-۱۶-۱۳۹۰, ۰۱:۵۸ بعد از ظهر

نقل قول:

نوشته اصلي بوسيله aminkop

سلام

احتراما این مساله که گفتید صحیح نیست چون روش هایی وجود داره که نیاز به تعیین تعداد خوشه در ابتدا نیست مانند DBSCAN و OPTICS (این روش ها فقط دو مقدار در ابتدا نیاز داره که تصادفی تعیین میشه و یا تخمین آن راهکارهایی ساده دارد و روش OPTICS که بهبود یافته آن است و بطور خودکار مقادیر را بهبود می دهد و outlier detection را هم انجام می دهد که خیلی مزیت مناسبی است)
غیر از این روش ها روش هایی هم مانند (buble و dencule اگر درست یادم بیاد) هم وجود داره میتونه ایده هایی برای تخمین تعداد خوشه بده.

سلام:

ممنون از اطلاعات خوبتون. فکر نمی کردم کسی اینجا از روش های تراکمی خوشه بندی اطلاعات داشته باشه. کاملا درست می گید. من برای روش های ابتدایی و سادا این موضوع رو مطرح کردم. مثل k-mean, kohonen و انواع سلسله مراتبی ها. می تونیم یه تاپیک درست کنیم برای هر روش و توضیحاتی مختصر درباره هرروش بدیم. اگه موافق باشید. من مایلم هرکی هرچی بلده بیاد توی این تاپیک ها بنویسه. اینجوری خیلی عالی می شه. موافقید؟

**taha_mokfi** · ۰۱-۱۶-۱۳۹۰, ۰۲:۳۳ بعد از ظهر

نقل قول:

نوشته اصلي بوسيله zmmhmmdrz

با سلام
می شود در مورد silhouette coefficient کمی توضیح دهید ممنون می شوم.

این روش یک روش برای ارزیابی الگوریتم های خوشه بندی بدون نظارت هست. که یه الگوریتم ساده داره. صفحه 541 منبعی که توی پیوست گذاشتم رو نگاه کنید.
این الگوریتم فاصله درون خوشه ای و برون خوشه ای را برای هر نمونه حساب می کنه و با فرمول خاص خودش میزان همبستگی هر نمونه در هر خوشه را مشخص می کنه. یه عدد بین -1 تا 1. که 1 خیلی خوب و -1 خیلی بده. یعنی اگر عضوی میزان ضریب سیلوهتش مثلا 0.9- باشه قرار گرفتن این نمونه در خوشه ای که تو اون قرار داره خیلی مناسب نیست.

**astudio** · ۰۱-۱۶-۱۳۹۰, ۰۶:۳۳ بعد از ظهر

نقل قول:

دوست خوبم اصولا تمامی روش های خوشه بندی روی similarityوdisimilarity درون و بین خوشه ای مانور می دهند. همه روش های خوشه بندی می خواهند similarity(شباهت) درون خوشه ای را افزایش دهد و disimilarity(عدم شباهت) بین خوشه ای را نیز افزایش دهند.
به عبارت دیگه اعضای داخل خوشه با هم بیشترین شباهت رو داشته باشند و این اعضا با اعضای خوشه های دیگر کمترین شباهت را داشته باشند.

خیلی ممنون از تذکرتان اما منظور بنده از طرح مفهوم similarity یک مفهوم انتزایی از فاصله است یعنی شما معیارتان از فاصله چیست؟قطعا معیار های مختلف (یا حداقل احتمالا) در تعداد خوشه ها،طرز قرار گرفتن آنها نسبت به هم،شرط توقف و.... تاثیر گذار خواهد بود.فرض کنید شما مجموعه داده ای با 30 خصوصیت دارید خوب حالا باید روی اینکه similarity چه باشد مانور بدهید.چون شما اینجا نمی توانید فضا را درک کنید که مثلا مثل فضای دو بعدی بگویید مثلا فاصله اقلیدسی(در دو بعد) مناسب است.لذا مفاهیم similarityو disimilarity مفاهیم بنیادی خوشه بندی هستند اما از یک دید جامع مفاهیمی انتزایی هستند که بسته به الگوریتمتان،فضا تان و... قابل تعریف کردن و مانور دادن هستند.
اما در پاسخ به hossein722 تا آنجا که من متوجه شدم برای کار شما الگوریتم ISOdata مناسب تر باشد(اگر درست متوجه شده باشم)هر چند kmeans هم خوب است.
ضمیمه یک اسلاید برای kmeans پیوست شده است.

zmmhmmdrz · ۰۱-۱۶-۱۳۹۰, ۱۰:۱۹ بعد از ظهر

با سلام
در همان kmeans اگر attribute به صورت عددی نباشد آنها را به صورت عددی در می آوریم
یک مشکل که وجود دارد اگر میزان شباهت را فاصله اقلیدسی در نظر بگیریم
رنج یک attribute از یک تا صد باشد و attribute دیگر از یک تا دو باشد و این باعث می شود تاثیر گذاری attribute اول خیلی بیشتر شود
یک راحل برای آن map کردن تمام مقادیر attribute ها در فاصله خاص می باشد
آیا کسی را حل بهتر دارد ؟

**taha_mokfi** · ۰۱-۱۷-۱۳۹۰, ۰۲:۲۷ قبل از ظهر

نقل قول:

نوشته اصلي بوسيله zmmhmmdrz

با سلام
در همان kmeans اگر attribute به صورت عددی نباشد آنها را به صورت عددی در می آوریم
یک مشکل که وجود دارد اگر میزان شباهت را فاصله اقلیدسی در نظر بگیریم
رنج یک attribute از یک تا صد باشد و attribute دیگر از یک تا دو باشد و این باعث می شود تاثیر گذاری attribute اول خیلی بیشتر شود
یک راحل برای آن map کردن تمام مقادیر attribute ها در فاصله خاص می باشد
آیا کسی را حل بهتر دارد ؟

خوب اگر قرار به map کردن باشه از self organizing map ها استفاده کنیم بهتره که. در این شرایط الگوریتم Kohonen فکر کنم خوب جواب بده چون همه داده ها رو نرمالسازی می کنه و بین بازه 0 تا1 می بره پس تاثیر متغیرها بر روی هدف یکسان می شه.

اما اگر قبل از ورود داده ها به الگوریتم k-means ، اونارو نرمال کنیم فضای مسئله کاهش داده می شه و مسئله ملموس تر می شه. حتی در این موارد در مرحله پیش پردازش می شه از کاهش داده ها برای متغیرهایی که پراکندگی داده های اونها زیاده استفاده کرد. اصولا هدف خوشه بندی خلاصه سازی هستش. پس چه بهتر قبل از ورود اطلاعات به مدل این خلاصه سازی و کاهش روی داده ها انجام بشه.

zmmhmmdrz · ۰۱-۲۴-۱۳۹۰, ۰۶:۳۸ بعد از ظهر

با سلام
می خواستم بدونم برای محاسبه میزان شباهت از چی استفاده می کنید؟
اگر از فاصله اقلیدسی استفاده کنیم و مثلا ورودی های ما سن افراد و جنسیت باشد ! شما باشید چکار می کنید ؟
اگر آنها را بین 1 و 0 map کنید به نظر تاثیر جنسیت بیشتر می شود و............
در کل می خواستم بدونم آیا راهی وجود داره که بازه ای که باید map کنیم را به مابدهد یا معیاری دیگری که این مشکل را نداشت باشد یعنی ورودی ها ارجحیتی بر هم نداشته باشند.

**taha_mokfi** · ۰۱-۲۵-۱۳۹۰, ۰۷:۱۷ بعد از ظهر

نقل قول:

نوشته اصلي بوسيله zmmhmmdrz

با سلام
می خواستم بدونم برای محاسبه میزان شباهت از چی استفاده می کنید؟
اگر از فاصله اقلیدسی استفاده کنیم و مثلا ورودی های ما سن افراد و جنسیت باشد ! شما باشید چکار می کنید ؟
اگر آنها را بین 1 و 0 map کنید به نظر تاثیر جنسیت بیشتر می شود و............
در کل می خواستم بدونم آیا راهی وجود داره که بازه ای که باید map کنیم را به مابدهد یا معیاری دیگری که این مشکل را نداشت باشد یعنی ورودی ها ارجحیتی بر هم نداشته باشند.

دوست عزیز دارید از اصل مطلب دور می شوید. شما برای الگوریتم هایی مثل شبکه عصبی که برای پیش بینی استفاده می شوند باید داده ها را نرمال کنید که تاثیر داده ها روی متغیر هدف یکسان شود. ولی برای الگوریتم های ساده بدون نظارت خوشه بندی که اصل قضیه شباهت ها و تفاوت ها است اصلا map کردن تاثیر شندانی بر روی نتایج نداره. چون اصل بر شباهت هاست چه مشخصه ها دارای دامنه زیادی باشند چه بین 0 و 1 باشند.

zmmhmmdrz · ۰۱-۲۵-۱۳۹۰, ۰۹:۳۱ بعد از ظهر

سلام دوست گرامی من هم می دونم مسئله فقط میزان شباهت است ولی وقتی شما بخواهید این الگوریتم را در متلب کد کنی متوجه می شوی که پیدا کردن میزان شباهت خیلی تاثیر پذر است از رنجی که ویژگی ها دارند چون ما فاصله اقلدسی را حساب می کنیم .
مثلا اگر جنسیت را 0 و 1 نشان دهیم و سن را 0 تا 100 در نظر بگیریم متوجه می شویم که الگوریتم به جنسیت اصلا توجهی نمی کند و خوشه بندی را بر اساس سن انجام می دهد .

**taha_mokfi** · ۰۱-۲۵-۱۳۹۰, ۱۰:۱۹ بعد از ظهر

نقل قول:

نوشته اصلي بوسيله zmmhmmdrz

سلام دوست گرامی من هم می دونم مسئله فقط میزان شباهت است ولی وقتی شما بخواهید این الگوریتم را در متلب کد کنی متوجه می شوی که پیدا کردن میزان شباهت خیلی تاثیر پذر است از رنجی که ویژگی ها دارند چون ما فاصله اقلدسی را حساب می کنیم .
مثلا اگر جنسیت را 0 و 1 نشان دهیم و سن را 0 تا 100 در نظر بگیریم متوجه می شویم که الگوریتم به جنسیت اصلا توجهی نمی کند و خوشه بندی را بر اساس سن انجام می دهد .

می تونم دقیقا بدونم روش خوشه بندی که استفاده می کنید چه روشی هست؟ با نظارت هستش یا بدون نظارت؟