clustering - Artificial Intelligence

hossein722 · ۰۱-۱۴-۱۳۹۰, ۱۰:۳۴ قبل از ظهر

سلام من دانشجوي كارشناسي ارشد هستم يه پروزه مربوط به كلاستر ينگ دارم به اين صورت هستش كه داده ها رو گرفته و بدون اينكه تعيين كنيم داده ها بايد به چند شاخه تقسيم شوند الگوريتم كلاسترين را به وسيله k-means انجام دهيم
و دسته آخر مشخص كنيم چند كلاس تشكيل مي شود مشكل من اينه كه نمي دونم چطور بايد بدون اينكه بدونم چند دسته هست الگوريتم رو پياده كنم و شرط توقف چي هستش
اگه كسي ميتونه به من كمك كنه متشكر مي شوم

**astudio** · ۰۱-۱۴-۱۳۹۰, ۰۹:۱۹ بعد از ظهر

سلام
طبیعت الگوریتم k-means این طور است که دسته ها را خودش مشخص می کند نه اینکه از ورودی بگیرد.شرط های توقفش هم در خود الگوریتم اعمال می شود تا آنجایی که یادم می آید روی similarityوdisimilarity خوشه ها و بین خوشه ها مانور می دهد.

**taha_mokfi** · ۰۱-۱۵-۱۳۹۰, ۰۱:۰۰ قبل از ظهر

نقل قول:

نوشته اصلي بوسيله hossein722

سلام من دانشجوي كارشناسي ارشد هستم يه پروزه مربوط به كلاستر ينگ دارم به اين صورت هستش كه داده ها رو گرفته و بدون اينكه تعيين كنيم داده ها بايد به چند شاخه تقسيم شوند الگوريتم كلاسترين را به وسيله k-means انجام دهيم
و دسته آخر مشخص كنيم چند كلاس تشكيل مي شود مشكل من اينه كه نمي دونم چطور بايد بدون اينكه بدونم چند دسته هست الگوريتم رو پياده كنم و شرط توقف چي هستش
اگه كسي ميتونه به من كمك كنه متشكر مي شوم

1) امکان نداره بتونید بدون تعریف تعداد خوشه های مد نظر این کار رو انجام دهید. اصولا خوشه بندی روش بدون نظارت هست و خودش نمی تونه چیزی یاد بگیره

2) قانون توقف:
الگوریتم وقتی پایان می پذیرد که مرکز هندسی تغییر زیادی نکند. به عبارت دیگر، الگوریتم زمانی پایان می یابد که برای همه خوشه ها، همه رکوردهایی که در آن خوشه قرار دارند در همان خوشه باقی بمانند. همچنین هرگاه الگوریتم به معیارهای خاصی نیز برسد الگوریتم پایان پیدا می کند، مانند کاهش یافتن مقدار مجموع مربعات خطا یا sse.

حالا مرکز هندسی چی هست و کجا هست دیگه باید الگوریتم رو خوب بلد باشید

**taha_mokfi** · ۰۱-۱۵-۱۳۹۰, ۰۱:۰۵ قبل از ظهر

نقل قول:

نوشته اصلي بوسيله astudio

سلام
طبیعت الگوریتم k-means این طور است که دسته ها را خودش مشخص می کند نه اینکه از ورودی بگیرد.شرط های توقفش هم در خود الگوریتم اعمال می شود تا آنجایی که یادم می آید روی similarityوdisimilarity خوشه ها و بین خوشه ها مانور می دهد.

دوست خوبم اصولا تمامی روش های خوشه بندی روی similarityوdisimilarity درون و بین خوشه ای مانور می دهند. همه روش های خوشه بندی می خواهند similarity(شباهت) درون خوشه ای را افزایش دهد و disimilarity(عدم شباهت) بین خوشه ای را نیز افزایش دهند.
به عبارت دیگه اعضای داخل خوشه با هم بیشترین شباهت رو داشته باشند و این اعضا با اعضای خوشه های دیگر کمترین شباهت را داشته باشند.

zmmhmmdrz · ۰۱-۱۵-۱۳۹۰, ۱۰:۴۲ قبل از ظهر

اولا در الگوریتم kmeans خومان تعداد کلاستر ها را مشخص می کنیم
برای شرط پایان می توان هم تعداد تکرار مثلا 100 بار تکرار و هم می توان مجموع فاصله داده ها از مرکز کلاستر مربوط به خود را در نظر گرفت مثلا بگوییم باید کمتر از 2 بشود و یا شرطی مبنی بر این که داده ها در تکرار الگوریتم در کلاستر ها جابه جا نشوند و از همه بهتر ترکیبی از آنهاست چون امکان توی لوپ افتادن وجود دارد

hossein722 · ۰۱-۱۵-۱۳۹۰, ۰۲:۳۴ بعد از ظهر

با تشكر از توجه تمامي دوستان عزيز
تمام مطالبي كه شما فرمودين به نوعي درست هستش
حناب astudio من كدم مشكلي كه داره در شرط توقف هتستش
اول داده ها به دو دسته تقسيم مي شوند بعد بايد يه معيار انتخاب كنيم تا يكي از كلاستر ها شكسته بشه(مثلا هر دسته كه تعداد اعضايش بيشتر بود شكسته بشه) بعد از شكستن دسته اول يه مقدار كوچك را از سنترويد دسته كه شكسته شده كم يا زياد مي كينم و آنقدر ادامه مي دهيم تا الگوريتمن متوقف بشه و.....
در پايان ما بايد به اين نتيجه برسيم كه اين داده ها چند دسته هستند
ho_gh_722@yahoo.com
اين ايميل منه كسي از دوستان اگه مي تونه كمكم كنه بهم ايمل بزنه خوشحال مي شم

zmmhmmdrz · ۰۱-۱۵-۱۳۹۰, ۰۳:۱۷ بعد از ظهر

با سلام به نظر من این اصلا kmeans نیست در kmeans ابتدا شما تعداد کلاستر ها را می دانید (یکی از نقاط ضعفش همین است )
ابتدا به تعداد کلاستر ها از داده ها به صورت راندم انتخاب می کنید به عنوان مرکز کلاستر های ابتدایی
در ادامه داده ها را با استفاده از فاصله اقلیدسی در کلاستر های خودشان قرار می دهیم (فاصله هر داده با مراکز را حساب کرده هر کدام کمتر بود آن داده را در آن کلاستر قرار می دهیم )
شرایط پایانی را ،که می تواند تعداد تکرار یا شرط جا به جا نشدن در کلاستر ها باشد را چک می کنیم
اگر پایان نیافته بود میانگین دادههای هر کلاستر را حساب می کنیم معمولا به صورت برداری
میانگین بدست آمده در هر کلاستر مرکز کلاستر می شود و روال بالا را تکرار می کنیم یعنی دوباره داده ها را با استفاده از فاصله اقلیدسی در کلاستر مربوط به خودشان قرار داده و شرط پایانی را چک می کنیم

**aminkop** · ۰۱-۱۵-۱۳۹۰, ۰۸:۲۰ بعد از ظهر

سلام

این روشی که شما مطرح کردین همانطور که دوستمان گفتند روش k-means نیست البته روشی با همان نوع ساختار است بنام splitting LBG است شرط توقف عمومی این الگوریتم هم یک حالت سلسه مراتبی داره و تا پایان یعنی به تعداد همه موارد ادامه پیدا می کنه البته در روش بهبود نیافته این مدل یعنی LBG شرط خاتمه رسیدن به یک اعوجاج کلی که محاسبه نوعی فاصله است ادامه پیدا می کنه.
در کل اگر بخواهید باروشی مانند k-means که باید تعداد خوشه ها مشخص باشه با هر روشی مانند آن که باید تعداد را تعیین کنیم در کاربرد خاصی اطلاع از حدود آن هم نداشته باشید باید مثلا در یک بازه (از 2 تا 10) خوشه بندی را انجام دهید بعد یک معیار عمومی برای کیفیت خوشه حساب کنید و تعیین کنید که کدام خوشه مناسب تر است توجه کنید روش های عمومی محاسبه similarity و disimilarity مناسب نیست و مثلا معیار silhouette coefficient مناسب است و تعیین می کند که چه تعداد خوشه مناسب است.

**taha_mokfi** · ۰۱-۱۵-۱۳۹۰, ۰۸:۵۸ بعد از ظهر

خطاب به همه دوستان:

به نظر من نظرات خوب بود البته بعضی جاها من ابهام داشتم.
اولا اینکه ما اصلا مسئله مطرحه رو که اقای hossein722 مطرج کردند رو نمی دونیم. پس نظر دادن در این رابطه غیر ممکنه.
در خصوص معیارها من موافقم که معیاری مثل تکرار و یا حتی عدم جابه جایی که خودم اشاره کردم اصلا شرط قوی یا robust نمی باشد. من پیشنهادم SSE یا silhouette coefficient یا امثال اینها برای ارزیابی خوشه ها هست.
ضمنا فکر کنم آقای hossein722 باید درباره مسئله بیشتر توضیح دهند تا بشه درباره شرایط توقف یا چیزهای دیگه اظهار نظر کرد.

ضمنا این رو همه موافقت کنیم که به جز روش های سلسله مراتبی خوشه بندی، سایر روش ها حتما حتما باید در ابتدا تعداد خوشه ها مشخص باشه تا الگوریتم شروع بشه.

zmmhmmdrz · ۰۱-۱۵-۱۳۹۰, ۱۰:۰۰ بعد از ظهر

با سلام
می شود در مورد silhouette coefficient کمی توضیح دهید ممنون می شوم.