تعین تعداد کلاسترها - Artificial Intelligence

maral1395 · ۰۳-۲۳-۱۳۹۰, ۱۱:۴۹ قبل از ظهر

اگر بخواهیم الگوریتم kmean را برای کلاسترینگ به کار بریم .با چه روشی تعداد کلاستر ها را باید تعیین کرد.یک روش sse است.آیا هر بار باید با k های مختلف اجرا کنیم تا SSE ها یشان را مقایسه کنیم آیا ابزاری برای مقایسه این نتیجه در کلمنتاین وجود دارد؟ چطور روند تغییر SSE را با یک نمودار برای k های مختلف نشان دهیم

**mardin200** · ۰۳-۲۳-۱۳۹۰, ۰۷:۴۲ بعد از ظهر

الگوریتم خاصی برای تعیین مقدار k وجود ندارد و همانطور که ذکر کردید باید با آزمایش و خطا یک k مناسب را بدست آورد در ضمن kmeans یک روش بدون ناظر است و شما فقط وقتی میتوانید SSE را حساب کنید که داده های شما برچسب داشته باشند.

**taha_mokfi** · ۰۳-۲۵-۱۳۹۰, ۱۱:۳۶ بعد از ظهر

نقل قول:

نوشته اصلي بوسيله mardin200

الگوریتم خاصی برای تعیین مقدار k وجود ندارد و همانطور که ذکر کردید باید با آزمایش و خطا یک k مناسب را بدست آورد در ضمن kmeans یک روش بدون ناظر است و شما فقط وقتی میتوانید SSE را حساب کنید که داده های شما برچسب داشته باشند.

در تکمیل فرمایشات شما عرض کنم که گره ای برای ارزیابی k-means در نرم افزار clementine وجود ندارد. اما وقتی که گره مدلسازی را در k-means باز کنید دومین تب از پایین به اسم viewer است و می توانید در آن اطلاعاتی را درباره خلوص خوشه ها از این پنجره کسب کنید.

ضمنا در کل شاخص های ارزیابی خوشه بندی خیلی متنوع و زیاد نیستند شاید جمعا بشه به 6-7 تا الگوریتم خوب برای ارزیابی خلوص خوشه ها در مقالات و کتاب ها پیدا کرد و روش های تصویری هم هستند که کلا این روش ها هم بر روی روش های با نظارت کاربرد دارند هم بر روی بی نظارت ها.

**mardin200** · ۰۳-۲۶-۱۳۹۰, ۱۰:۵۹ قبل از ظهر

نقل قول:

نوشته اصلي بوسيله taha_mokfi

در تکمیل فرمایشات شما عرض کنم که گره ای برای ارزیابی k-means در نرم افزار clementine وجود ندارد. اما وقتی که گره مدلسازی را در k-means باز کنید دومین تب از پایین به اسم viewer است و می توانید در آن اطلاعاتی را درباره خلوص خوشه ها از این پنجره کسب کنید.

ضمنا در کل شاخص های ارزیابی خوشه بندی خیلی متنوع و زیاد نیستند شاید جمعا بشه به 6-7 تا الگوریتم خوب برای ارزیابی خلوص خوشه ها در مقالات و کتاب ها پیدا کرد و روش های تصویری هم هستند که کلا این روش ها هم بر روی روش های با نظارت کاربرد دارند هم بر روی بی نظارت ها.

با سلام و تشکر از جوابتون
منظور سوال این بوده که قبل عمل خوشه بندی آیا راه حلی وجود دارد که مقدار k را همان ابتدای کار بدست آورد که جواب خیر است.
ولی روشی که شما هم فرمودید همان آزمون و خطا است یعنی اول خوشه بندی را انجام می دهید بعد توسط یک معیار آن را ارزیابی می کنید.
برای اینکار در matlab هم معیار های ارزیابی خوبی مثل cophenent وجود دارد که دقت کار را مشخص می کند ولی بعد عمل خوشه بندی.
در ضمن مفهوم clustering یعنی بدون ناظر بودن، کدام روش clustering با ناظر است؟ اگر یک الگوریتم با ناظر با شد آن وقت میشود classification نه clustering
بعد در جواب بالا منظورم این بود که تا داده های شما بر چسب نداشته باشند نمی توان مقدار SSE را برای آنها محاسبه کرد.

**taha_mokfi** · ۰۳-۲۶-۱۳۹۰, ۱۲:۴۲ بعد از ظهر

نقل قول:

نوشته اصلي بوسيله mardin200

با سلام و تشکر از جوابتون
منظور سوال این بوده که قبل عمل خوشه بندی آیا راه حلی وجود دارد که مقدار k را همان ابتدای کار بدست آورد که جواب خیر است.
ولی روشی که شما هم فرمودید همان آزمون و خطا است یعنی اول خوشه بندی را انجام می دهید بعد توسط یک معیار آن را ارزیابی می کنید.
برای اینکار در matlab هم معیار های ارزیابی خوبی مثل cophenent وجود دارد که دقت کار را مشخص می کند ولی بعد عمل خوشه بندی.
در ضمن مفهوم clustering یعنی بدون ناظر بودن، کدام روش clustering با ناظر است؟ اگر یک الگوریتم با ناظر با شد آن وقت میشود classification نه clustering
بعد در جواب بالا منظورم این بود که تا داده های شما بر چسب نداشته باشند نمی توان مقدار SSE را برای آنها محاسبه کرد.

با تشکر از اینکه جواب بنده را کامل کردید.
درمورد با نظارت بودن هم باید بگم خوشبختانه داده کاوی و روش های آن سرعتی چشم گیر دارند. روش های جدید خوشه بندی با ترکیب مباحث مربوط به کلاسه بندی انجام می شوند. به این ترتیب که در هنگام خوشه بندی از یکسری کلاس های از پیش تعیین شده برای بالا بردن دقت خوشه بندی استفاده می شود. خوشه بندی با نظارت یکی از مباحث نسبتا حدید در این علم می باشد.لطفا برای اطلاع بیشتر لینک زیر را که مربوط به مقاله ای منتشره در کنفرانسی در سال 2004 است را ملاحظه فرمایید:
IEEE Xplore - Sign In

**taha_mokfi** · ۰۳-۲۶-۱۳۹۰, ۱۲:۴۶ بعد از ظهر

چند ماه پیش بود که مقاله ای در خصوص کاربرد داده کاوی در مدیریت پروژه در یکی از مجله های علمی پژوهشی خودمان داده بودم که در متن آن به نحوی ذکر کرده بودم که خوشه بندی بی نظارت است و وقتی نتیجه داوری آمد، داور محترم از این جمله بنده اشکال گرفته بودند من هم مجبور به تصحیح این جمله به این شکل شدم که:"خوشه بندی هم می تواند با نظارت باشد و هم بدون نظارت"
یکی از دلایل علاقه بنده به داده کاوی رشد حیرت انگیز این علم در دنیای کنونی می باشد.

**mardin200** · ۰۳-۲۶-۱۳۹۰, ۰۱:۳۵ بعد از ظهر

نقل قول:

نوشته اصلي بوسيله taha_mokfi

با تشکر از اینکه جواب بنده را کامل کردید.
درمورد با نظارت بودن هم باید بگم خوشبختانه داده کاوی و روش های آن سرعتی چشم گیر دارند. روش های جدید خوشه بندی با ترکیب مباحث مربوط به کلاسه بندی انجام می شوند. به این ترتیب که در هنگام خوشه بندی از یکسری کلاس های از پیش تعیین شده برای بالا بردن دقت خوشه بندی استفاده می شود.

ممنون از لینکی که دادید
احتمالا شما منظورتون همون استفاده از ensembleها باشد که به روشهای متنوع صورت می گیرد. ولی مشکل اینه که اگر روشهای باناظر را clustering بنامیم باید در تعریف clustering تغییراتی ایجاد کنیم

آنوقت تفاوت بین clustering و classification به نظر شما چی خواهد بود؟

ممنون میشم اگه مقالتون رو هم اینجا قرار بدید تا هممون بتونیم استفاده کنیم

**taha_mokfi** · ۰۳-۲۹-۱۳۹۰, ۰۲:۰۸ قبل از ظهر

نقل قول:

نوشته اصلي بوسيله mardin200

ممنون از لینکی که دادید
احتمالا شما منظورتون همون استفاده از ensembleها باشد که به روشهای متنوع صورت می گیرد. ولی مشکل اینه که اگر روشهای باناظر را clustering بنامیم باید در تعریف clustering تغییراتی ایجاد کنیم

آنوقت تفاوت بین clustering و classification به نظر شما چی خواهد بود؟

ممنون میشم اگه مقالتون رو هم اینجا قرار بدید تا هممون بتونیم استفاده کنیم

البته من فکر کنم با مطالعات کمی که بر روی این چنین روش هایی داشتم آنها به طور همزمان از مفاهیم کلاسه بندی و خوشه بندی استفاده می کنند . در ensembleهای supervised ، مدلها بر پایه متغیر هدف در مجموعه داده های آموزشی با هم ترکیب می شوند و این دو موضوع ظاهرا متفاوتند.

اما در خصوص تفاوت کلاسه بندی و خوشه باید گفت که ظاهرا هنوز این تفاوت در خوشه بندی با نظارت رعایت شده چون در مقالات و متون ذکر شده است که مثلا خوشه بندی با نظارت با استفاده از SVMها یعنی وظایف این دو روش هنوز به صورت تفکیک شده ای قرار دارد و در عمل فقط به نحوی خوشه بندی ها با استفاده از این روش های با نظارت دقیق تر شده اند و در حقیقت نتیجه این روش ها همان خوشه ها می باشند و نه متغیرهای هدف.

در خصوص مقاله هم چشم ایشالا اگه توی تابستون چاپ بشه بعد از چاپ حتما این جا به اشتراک می ذارمشون.

mahdigh · ۰۶-۴-۱۳۹۰, ۰۵:۳۰ بعد از ظهر

میشه یه کم در مورد معیار های میزان خوب بودن کلاسترینگ توضیح بدید؟ سپاس