تاپيک: Clustering چیست؟
نمايش پست تنها
قديمي ۰۹-۱۸-۱۳۸۸, ۰۲:۳۹ بعد از ظهر   #1 (لینک دائم)
Astaraki Female
Administrator
 
آواتار Astaraki
 
تاريخ عضويت: خرداد ۱۳۸۷
محل سكونت: تهران-کرج!
پست ها: 3,465
تشكرها: 754
16,337 تشكر در 3,127 پست
My Mood: Mehrabon
ارسال پيغام Yahoo به Astaraki
Wink Clustering چیست؟

Clustering چیست؟



داده و الگو یکی از شاخص های بسیار مهم در دنیای اطلاعات هستند. خوشه بندی(Clustering) یکی از بهترین روش هایی است که برای کار با داده ها ارائه شده. قابلیت آن در ورود به فضای داده و تشخیص ساختار آنها، خوشه بندی را یکی از ایده آل ترین مکانیزم ها برای کار با دنیای عظیم داده ها کرده است. اولین بار ایده ی آن در دهه ی 1935 ارائه شد و امروزه با پیشرفت ها و جهش های عظیمی که در آن پدید آمده، خوشه بندی در کاربردها و جنبه های مختلفی حضور یافته است.
شناخت و دسته پنجه نرم کردن با داده ها یکی از اهداف مهم در داده کاوی، آنالیز هوشمند داده ها ، سنسور هسته ای ، تشخیص تصاویر و مدل سازی سیستم ها با محیط منطقی است.
یک جستجوی ساده در وب یا حتی در پایگاه داده ی یک کتابخانه، کاربرد شگفت انگیز خوشه بندی را برای ما آشکار می سازد. خوشه بندی در علم پزشکی، بازاریابی، مهندسی، اقتصاد، علوم زیستی، شیمی، علائم نظامی، مهندسی تغذیه، سرمایه گذاری و تحصیلات خود را به طور شگفت انگیزی وارد کرده است . الگوریتم های خوشه بندی در زمینه های مختلفی کاربرد دارد. برای مثال:
+ بازاریابی: یافتن مشتری ها با خصوصیات یکسان با در دست داشتن پایگاه داده ای بزرگ از همه مشتری ها با به همراه مشخصات و رکوردی دیده های قبلی ها.
+ زیست شناسی: طبقه بندی گیاهان و جانوران با توجه به خصوصیاتشان
+ کتابخانه: سفارش کتاب
+ بیمه: تشخیص افراد متقلب، تشخیص افرادی که بیمه موتور دارند و بیشترین میزان درخواست از بیمه را نیز در سال مشخصی داشته اند.
+ شهرسازی: شناسائی خانه هایی که مدل و ارزش و منطقه جغرافیایی آنها مشابه هست.
+ علوم زلزله شناسی: دسته بندی مشاهدات از مراکز زلزله برای تشخیص مناطق زلزله خیز
+ www: طبقه بندی مستندات، دسته بندی داده های و بلاگ ها به این منظور که الگوهای مشابه دستیابی به آن و بلاگ را مشخص کنند.
خوشه بندی در واقع یافتن “ساختار” در مجوعه ای از داده هایی است که طبقه بندی نشده اند. به بیان دیگر می توان گفت که خوشه بندی قراردادن داده ها در گروه هایی است که اعضای هر گروه از زاویه خاصی شباهت دارند. در نتیجه اعضای یک خوشه به یکدیگر شباهت دارند و با اعضای خوشه های دیگر هیچ شباهتی ندارند. معیار شباهت در اینجا فاصله (distance) بوده یعنی اشیاء ای که به همین دیگر نزدیکترند در یک خوشه قرار می گیرند.
محاسبه فاصله بین دو داده ها در خوشه بندی بسیار مهم هست. فاصله که همان معرف عدم تجانس است به ما کمک می کند در فضای داده ای حرکت کنیم و خوشه ها را تشکیل دهیم. با محاسبه فاصله بین دو داده می توان فهمید که چقدر این دو داده به هم نزدیک هستند و بر این اساس آنها را در یک خوشه قرار بدهیم. توابع ریاضی مختلفی برای محاسبه فاصله وجود دارند. مانند فاصله افلیدسی , همینگ و ....
الگوریتم های خوشه بندی متفاوتی چون fuzzy c-means , k- means ، hierarchical clustering (خوشه بندی سلسه مراتبی) و mixture of Gaussians و ... وجود دارد. الگوریتم های خوشه بندی باید دارای خصوصیات زیر باشند:
1ـ مقیاس پذیری
2ـ امکان کار کردن با attribute های مختلف
3ـ یافتن خوشه ها با شکل های قراردادى
4ـ دارا بودن حداقل دانش محیط کامپیوتر برای تشخیص پارامترهای ورودی.
5ـ دسته پنجه نرم کردن با نویز و برون نهشت ها
6ـ ترتیب داده های ورودی بر روی آن تأثیری نداشته باشد.
7ـ دارای ابعاد مختلف و بالا
8ـ قابلیت تغییر و امکان استفاده ی آسان
در میان همه الگوریتم های خوشه بندی، الگوریتم فازی جایگاه به خصوصی دارد. آنچه الگوریتم فازی را از سایر الگوریتم های خوشه بندی مجزا می سازد این است که در این جا یک داده می تواند همزمان به دو یا بیشتر خوشه تعلق داشته باشد.
آنچه که میزان تعلق یک داده را به یک خوشه مشخص می کند. درجه عضویت آن داده به خوشه گویند.
این موضوع الگوریتم فازی را یکی از مهمترین موضوعات روز در دنیای داده ها کرده است.
Astaraki آفلاين است   پاسخ با نقل قول

  #ADS
نشان دهنده تبلیغات
تبليغگر
 
 
 
تاريخ عضويت: -
محل سكونت: -
سن: 2010
پست ها: -
 

نشان دهنده تبلیغات is online