k-means
با سلام
دوستان من دارم برنامه k-means را به اين صورت مي نويسم كه :
يكسري داده دارم كه هر كدام يك بردار 15 مقداره هستند ( يعني هر داده به جاي 2 بعد ، 15 بعد دارند) . حالا در مرحله اول بايد اين داده ها به 2 دسته تقسيم بشوند ، وقتي 2 دسته بعد از چند مرحله به صورت كامل تكميل شد حالا بايد آن دسته اي كه انحراف از معيار بيشتري دادهايش با centroid دارند را به 2 دسته ديگر بشكنم و اين بار كل داده ها را به 3 دسته تقسيم كنم و الا اآخر 4 ، 5 . . .
شرط توقف اين است كه انحراف از معيار كلاسترهايم از يك مقداري كمتر باشد
در اصل يك جور LBG مي نويسيم
حالا سوالات من :
در ابتداي كار centroid هاي اوليه را چطور انتخاب كنم ؟ ( نمي خواهم به صورت رندم بگم كه 2 تا از داده ها بشن centroid و مي خواهم يه منطقي پشت اين انتخاب باشه چون هر چه اين مقادير دقيقتر باشند دسته بندي بهتري داريم )
بعد از يافتن پاسخ اوليه سوال دوم را مي پرسم.
البته راه انتخابي من به اين صورت است :
ميانگين همه داده ها رو انتخاب كرده يك بردار بدست مي آيد حالا هر فيلد اين بردار را با يك اپسيلن جمع و تفريق مي كنم و 2 centroid اوليه محاسبه مي شود
|