Artificial Intelligence - هوش مصنوعی  
انجمن را در گوگل محبوب کنيد :

بازگشت   Artificial Intelligence - هوش مصنوعی > داده کاوی > داده كاوی(Data mining)


 
تبليغات سايت
Iranian Association for the Advancement of Artificial Intelligence
ارسال تاپيک جديد  پاسخ
 
LinkBack ابزارهاي تاپيک نحوه نمايش
قديمي ۰۱-۱۶-۱۳۹۰, ۱۲:۱۶ بعد از ظهر   #11 (لینک دائم)
Active users
 
آواتار aminkop
 
تاريخ عضويت: آبان ۱۳۸۸
پست ها: 45
تشكرها: 7
123 تشكر در 35 پست
پيش فرض

نقل قول:
نوشته اصلي بوسيله taha_mokfi نمايش پست
ضمنا این رو همه موافقت کنیم که به جز روش های سلسله مراتبی خوشه بندی، سایر روش ها حتما حتما باید در ابتدا تعداد خوشه ها مشخص باشه تا الگوریتم شروع بشه.
سلام

احتراما این مساله که گفتید صحیح نیست چون روش هایی وجود داره که نیاز به تعیین تعداد خوشه در ابتدا نیست مانند DBSCAN و OPTICS (این روش ها فقط دو مقدار در ابتدا نیاز داره که تصادفی تعیین میشه و یا تخمین آن راهکارهایی ساده دارد و روش OPTICS که بهبود یافته آن است و بطور خودکار مقادیر را بهبود می دهد و outlier detection را هم انجام می دهد که خیلی مزیت مناسبی است)
غیر از این روش ها روش هایی هم مانند (buble و dencule اگر درست یادم بیاد) هم وجود داره میتونه ایده هایی برای تخمین تعداد خوشه بده.
aminkop آفلاين است   پاسخ با نقل قول
از aminkop تشكر كرده است:
mehran6644 (۰۱-۱۸-۱۳۹۰)

  #ADS
نشان دهنده تبلیغات
تبليغگر
 
 
 
تاريخ عضويت: -
محل سكونت: -
سن: 2010
پست ها: -
 

نشان دهنده تبلیغات is online  
قديمي ۰۱-۱۶-۱۳۹۰, ۰۱:۵۸ بعد از ظهر   #12 (لینک دائم)
Moderator
 
آواتار taha_mokfi
 
تاريخ عضويت: بهمن ۱۳۸۹
محل سكونت: تهران
پست ها: 88
تشكرها: 41
93 تشكر در 42 پست
Thumbs up

نقل قول:
نوشته اصلي بوسيله aminkop نمايش پست
سلام

احتراما این مساله که گفتید صحیح نیست چون روش هایی وجود داره که نیاز به تعیین تعداد خوشه در ابتدا نیست مانند DBSCAN و OPTICS (این روش ها فقط دو مقدار در ابتدا نیاز داره که تصادفی تعیین میشه و یا تخمین آن راهکارهایی ساده دارد و روش OPTICS که بهبود یافته آن است و بطور خودکار مقادیر را بهبود می دهد و outlier detection را هم انجام می دهد که خیلی مزیت مناسبی است)
غیر از این روش ها روش هایی هم مانند (buble و dencule اگر درست یادم بیاد) هم وجود داره میتونه ایده هایی برای تخمین تعداد خوشه بده.
سلام:

ممنون از اطلاعات خوبتون. فکر نمی کردم کسی اینجا از روش های تراکمی خوشه بندی اطلاعات داشته باشه. کاملا درست می گید. من برای روش های ابتدایی و سادا این موضوع رو مطرح کردم. مثل k-mean, kohonen و انواع سلسله مراتبی ها. می تونیم یه تاپیک درست کنیم برای هر روش و توضیحاتی مختصر درباره هرروش بدیم. اگه موافق باشید. من مایلم هرکی هرچی بلده بیاد توی این تاپیک ها بنویسه. اینجوری خیلی عالی می شه. موافقید؟
taha_mokfi آفلاين است   پاسخ با نقل قول
از taha_mokfi تشكر كرده است:
mehran6644 (۰۱-۱۸-۱۳۹۰)
قديمي ۰۱-۱۶-۱۳۹۰, ۰۲:۳۳ بعد از ظهر   #13 (لینک دائم)
Moderator
 
آواتار taha_mokfi
 
تاريخ عضويت: بهمن ۱۳۸۹
محل سكونت: تهران
پست ها: 88
تشكرها: 41
93 تشكر در 42 پست
پيش فرض الگوریتم silhouette coefficient

نقل قول:
نوشته اصلي بوسيله zmmhmmdrz نمايش پست
با سلام
می شود در مورد silhouette coefficient کمی توضیح دهید ممنون می شوم.
این روش یک روش برای ارزیابی الگوریتم های خوشه بندی بدون نظارت هست. که یه الگوریتم ساده داره. صفحه 541 منبعی که توی پیوست گذاشتم رو نگاه کنید.
این الگوریتم فاصله درون خوشه ای و برون خوشه ای را برای هر نمونه حساب می کنه و با فرمول خاص خودش میزان همبستگی هر نمونه در هر خوشه را مشخص می کنه. یه عدد بین -1 تا 1. که 1 خیلی خوب و -1 خیلی بده. یعنی اگر عضوی میزان ضریب سیلوهتش مثلا 0.9- باشه قرار گرفتن این نمونه در خوشه ای که تو اون قرار داره خیلی مناسب نیست.
فايل ضميمه
نوع فايل: pdf ch8.pdf (1.34 مگابايت, 107 نمايش)
taha_mokfi آفلاين است   پاسخ با نقل قول
از taha_mokfi تشكر كرده اند:
dr.fox (۰۳-۲۴-۱۳۹۱), it_heidari (۱۰-۱۷-۱۳۹۳), mehran6644 (۰۱-۱۸-۱۳۹۰)
قديمي ۰۱-۱۶-۱۳۹۰, ۰۶:۳۳ بعد از ظهر   #14 (لینک دائم)
Active users
 
آواتار astudio
 
تاريخ عضويت: خرداد ۱۳۸۹
پست ها: 48
تشكرها: 4
50 تشكر در 31 پست
پيش فرض

نقل قول:
دوست خوبم اصولا تمامی روش های خوشه بندی روی similarityوdisimilarity درون و بین خوشه ای مانور می دهند. همه روش های خوشه بندی می خواهند similarity(شباهت) درون خوشه ای را افزایش دهد و disimilarity(عدم شباهت) بین خوشه ای را نیز افزایش دهند.
به عبارت دیگه اعضای داخل خوشه با هم بیشترین شباهت رو داشته باشند و این اعضا با اعضای خوشه های دیگر کمترین شباهت را داشته باشند.
خیلی ممنون از تذکرتان اما منظور بنده از طرح مفهوم similarity یک مفهوم انتزایی از فاصله است یعنی شما معیارتان از فاصله چیست؟قطعا معیار های مختلف (یا حداقل احتمالا) در تعداد خوشه ها،طرز قرار گرفتن آنها نسبت به هم،شرط توقف و.... تاثیر گذار خواهد بود.فرض کنید شما مجموعه داده ای با 30 خصوصیت دارید خوب حالا باید روی اینکه similarity چه باشد مانور بدهید.چون شما اینجا نمی توانید فضا را درک کنید که مثلا مثل فضای دو بعدی بگویید مثلا فاصله اقلیدسی(در دو بعد) مناسب است.لذا مفاهیم similarityو disimilarity مفاهیم بنیادی خوشه بندی هستند اما از یک دید جامع مفاهیمی انتزایی هستند که بسته به الگوریتمتان،فضا تان و... قابل تعریف کردن و مانور دادن هستند.
اما در پاسخ به hossein722 تا آنجا که من متوجه شدم برای کار شما الگوریتم ISOdata مناسب تر باشد(اگر درست متوجه شده باشم)هر چند kmeans هم خوب است.
ضمیمه یک اسلاید برای kmeans پیوست شده است.
فايل ضميمه
نوع فايل: pdf 1- lecture7-a.clustering.pdf (4.66 مگابايت, 102 نمايش)
__________________



نه چندان بزرگم

که کوچک بیابم خودم را

نه آنقدر کوچک

که خود را بزرگ...

گریز از میانمایگی

آرزویی بزرگ است؟
astudio آفلاين است   پاسخ با نقل قول
از astudio تشكر كرده اند:
34191207359 (۰۸-۲۳-۱۳۹۲), taha_mokfi (۰۱-۱۶-۱۳۹۰)
قديمي ۰۱-۱۶-۱۳۹۰, ۱۰:۱۹ بعد از ظهر   #15 (لینک دائم)
عضو فوق فعال
 
آواتار zmmhmmdrz
 
تاريخ عضويت: مهر ۱۳۸۹
محل سكونت: کرمان
پست ها: 44
تشكرها: 24
30 تشكر در 22 پست
پيش فرض

با سلام
در همان kmeans اگر attribute به صورت عددی نباشد آنها را به صورت عددی در می آوریم
یک مشکل که وجود دارد اگر میزان شباهت را فاصله اقلیدسی در نظر بگیریم
رنج یک attribute از یک تا صد باشد و attribute دیگر از یک تا دو باشد و این باعث می شود تاثیر گذاری attribute اول خیلی بیشتر شود
یک راحل برای آن map کردن تمام مقادیر attribute ها در فاصله خاص می باشد
آیا کسی را حل بهتر دارد ؟
zmmhmmdrz آفلاين است   پاسخ با نقل قول
از zmmhmmdrz تشكر كرده است:
mehran6644 (۰۱-۱۸-۱۳۹۰)
قديمي ۰۱-۱۷-۱۳۹۰, ۰۲:۲۷ قبل از ظهر   #16 (لینک دائم)
Moderator
 
آواتار taha_mokfi
 
تاريخ عضويت: بهمن ۱۳۸۹
محل سكونت: تهران
پست ها: 88
تشكرها: 41
93 تشكر در 42 پست
پيش فرض

نقل قول:
نوشته اصلي بوسيله zmmhmmdrz نمايش پست
با سلام
در همان kmeans اگر attribute به صورت عددی نباشد آنها را به صورت عددی در می آوریم
یک مشکل که وجود دارد اگر میزان شباهت را فاصله اقلیدسی در نظر بگیریم
رنج یک attribute از یک تا صد باشد و attribute دیگر از یک تا دو باشد و این باعث می شود تاثیر گذاری attribute اول خیلی بیشتر شود
یک راحل برای آن map کردن تمام مقادیر attribute ها در فاصله خاص می باشد
آیا کسی را حل بهتر دارد ؟
خوب اگر قرار به map کردن باشه از self organizing map ها استفاده کنیم بهتره که. در این شرایط الگوریتم Kohonen فکر کنم خوب جواب بده چون همه داده ها رو نرمالسازی می کنه و بین بازه 0 تا1 می بره پس تاثیر متغیرها بر روی هدف یکسان می شه.

اما اگر قبل از ورود داده ها به الگوریتم k-means ، اونارو نرمال کنیم فضای مسئله کاهش داده می شه و مسئله ملموس تر می شه. حتی در این موارد در مرحله پیش پردازش می شه از کاهش داده ها برای متغیرهایی که پراکندگی داده های اونها زیاده استفاده کرد. اصولا هدف خوشه بندی خلاصه سازی هستش. پس چه بهتر قبل از ورود اطلاعات به مدل این خلاصه سازی و کاهش روی داده ها انجام بشه.
taha_mokfi آفلاين است   پاسخ با نقل قول
از taha_mokfi تشكر كرده است:
mehran6644 (۰۱-۱۸-۱۳۹۰)
قديمي ۰۱-۲۴-۱۳۹۰, ۰۶:۳۸ بعد از ظهر   #17 (لینک دائم)
عضو فوق فعال
 
آواتار zmmhmmdrz
 
تاريخ عضويت: مهر ۱۳۸۹
محل سكونت: کرمان
پست ها: 44
تشكرها: 24
30 تشكر در 22 پست
پيش فرض

با سلام
می خواستم بدونم برای محاسبه میزان شباهت از چی استفاده می کنید؟
اگر از فاصله اقلیدسی استفاده کنیم و مثلا ورودی های ما سن افراد و جنسیت باشد ! شما باشید چکار می کنید ؟
اگر آنها را بین 1 و 0 map کنید به نظر تاثیر جنسیت بیشتر می شود و............
در کل می خواستم بدونم آیا راهی وجود داره که بازه ای که باید map کنیم را به مابدهد یا معیاری دیگری که این مشکل را نداشت باشد یعنی ورودی ها ارجحیتی بر هم نداشته باشند.
__________________
zmmhmmdrz آفلاين است   پاسخ با نقل قول
قديمي ۰۱-۲۵-۱۳۹۰, ۰۷:۱۷ بعد از ظهر   #18 (لینک دائم)
Moderator
 
آواتار taha_mokfi
 
تاريخ عضويت: بهمن ۱۳۸۹
محل سكونت: تهران
پست ها: 88
تشكرها: 41
93 تشكر در 42 پست
پيش فرض

نقل قول:
نوشته اصلي بوسيله zmmhmmdrz نمايش پست
با سلام
می خواستم بدونم برای محاسبه میزان شباهت از چی استفاده می کنید؟
اگر از فاصله اقلیدسی استفاده کنیم و مثلا ورودی های ما سن افراد و جنسیت باشد ! شما باشید چکار می کنید ؟
اگر آنها را بین 1 و 0 map کنید به نظر تاثیر جنسیت بیشتر می شود و............
در کل می خواستم بدونم آیا راهی وجود داره که بازه ای که باید map کنیم را به مابدهد یا معیاری دیگری که این مشکل را نداشت باشد یعنی ورودی ها ارجحیتی بر هم نداشته باشند.
دوست عزیز دارید از اصل مطلب دور می شوید. شما برای الگوریتم هایی مثل شبکه عصبی که برای پیش بینی استفاده می شوند باید داده ها را نرمال کنید که تاثیر داده ها روی متغیر هدف یکسان شود. ولی برای الگوریتم های ساده بدون نظارت خوشه بندی که اصل قضیه شباهت ها و تفاوت ها است اصلا map کردن تاثیر شندانی بر روی نتایج نداره. چون اصل بر شباهت هاست چه مشخصه ها دارای دامنه زیادی باشند چه بین 0 و 1 باشند.
taha_mokfi آفلاين است   پاسخ با نقل قول
قديمي ۰۱-۲۵-۱۳۹۰, ۰۹:۳۱ بعد از ظهر   #19 (لینک دائم)
عضو فوق فعال
 
آواتار zmmhmmdrz
 
تاريخ عضويت: مهر ۱۳۸۹
محل سكونت: کرمان
پست ها: 44
تشكرها: 24
30 تشكر در 22 پست
پيش فرض

سلام دوست گرامی من هم می دونم مسئله فقط میزان شباهت است ولی وقتی شما بخواهید این الگوریتم را در متلب کد کنی متوجه می شوی که پیدا کردن میزان شباهت خیلی تاثیر پذر است از رنجی که ویژگی ها دارند چون ما فاصله اقلدسی را حساب می کنیم .
مثلا اگر جنسیت را 0 و 1 نشان دهیم و سن را 0 تا 100 در نظر بگیریم متوجه می شویم که الگوریتم به جنسیت اصلا توجهی نمی کند و خوشه بندی را بر اساس سن انجام می دهد .
__________________
zmmhmmdrz آفلاين است   پاسخ با نقل قول
قديمي ۰۱-۲۵-۱۳۹۰, ۱۰:۱۹ بعد از ظهر   #20 (لینک دائم)
Moderator
 
آواتار taha_mokfi
 
تاريخ عضويت: بهمن ۱۳۸۹
محل سكونت: تهران
پست ها: 88
تشكرها: 41
93 تشكر در 42 پست
پيش فرض

نقل قول:
نوشته اصلي بوسيله zmmhmmdrz نمايش پست
سلام دوست گرامی من هم می دونم مسئله فقط میزان شباهت است ولی وقتی شما بخواهید این الگوریتم را در متلب کد کنی متوجه می شوی که پیدا کردن میزان شباهت خیلی تاثیر پذر است از رنجی که ویژگی ها دارند چون ما فاصله اقلدسی را حساب می کنیم .
مثلا اگر جنسیت را 0 و 1 نشان دهیم و سن را 0 تا 100 در نظر بگیریم متوجه می شویم که الگوریتم به جنسیت اصلا توجهی نمی کند و خوشه بندی را بر اساس سن انجام می دهد .
می تونم دقیقا بدونم روش خوشه بندی که استفاده می کنید چه روشی هست؟ با نظارت هستش یا بدون نظارت؟
taha_mokfi آفلاين است   پاسخ با نقل قول
پاسخ



كاربران در حال ديدن تاپيک: 1 (0 عضو و 1 مهمان)
 

قوانين ارسال
You may not post new threads
You may not post replies
You may not post attachments
You may not edit your posts

BB code is فعال
شکلکها فعال است
كد [IMG] فعال است
كدهاي HTML غير فعال است
Trackbacks are فعال
Pingbacks are فعال
Refbacks are فعال




زمان محلي شما با تنظيم GMT +3.5 هم اکنون ۰۹:۱۰ قبل از ظهر ميباشد.


Powered by vBulletin® Version 3.8.3
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Search Engine Friendly URLs by vBSEO 3.1.0 ©2007, Crawlability, Inc.

Teach and Learn at Hexib | Sponsored by www.Syavash.com and Product In Review

استفاده از مطالب انجمن در سایر سایت ها، تنها با ذکر انجمن هوش مصنوعي به عنوان منبع و لینک مستقیم به خود مطلب مجاز است

Inactive Reminders By Icora Web Design