Artificial Intelligence - هوش مصنوعی  
انجمن را در گوگل محبوب کنيد :

بازگشت   Artificial Intelligence - هوش مصنوعی > یادگیری (Learning) > دسته بندي (Classification)


 
تبليغات سايت
Iranian Association for the Advancement of Artificial Intelligence
ارسال تاپيک جديد  پاسخ
 
LinkBack ابزارهاي تاپيک نحوه نمايش
قديمي ۰۳-۱۰-۱۳۸۹, ۰۷:۲۸ بعد از ظهر   #1 (لینک دائم)
عضو جدید
 
آواتار lightinstinct
 
تاريخ عضويت: خرداد ۱۳۸۹
پست ها: 6
تشكرها: 0
3 تشكر در 2 پست
My Mood: Sepasgozar
پيش فرض كمك در فهم روش دسته بندي

سلام
من اين مطلب در مورد تكنيك متن كاوي رو ترجمه كردم ولي بعضي جاهاشو متوجه نشدم اگه جواب هر كدوم از اين سوالا رو ميدونيد خيلي لطف ميكنين اگه بگين.(جاهايي از اين مطلبم كه .... است نتونستم ترجمه كنم اگه مطلب انگليسيش كمكي ميكنه گذاشتمش.

1)دسته بندي يا استخراج اطلاعات يا خوشه بندي اينا هر كدوم يه روش جداگانه براي متن كاوي هستند يا همه با هم كار مي كنن؟

2)در جايي از اين مطلب ميگه اين روش سندهايي كه به موضوع خاصي مرتبط هستند رو رده بندي ميكنه همين رده بندي رو چه جوري انجام ميده؟باشمردن تعداد كلمات هرسند؟
3)منظورش از الگوريتم supervised learning همينه كه به classifierها ياد بده كه با استفاده از سندهاي مشخص سندهاي غير مشخص رو كلاس بندي كنه؟
4)TF يا IDFياTFIDF چي هستن؟
5)feature selection وfeature space چيه؟
6)text manifold يعني چه؟
7)TCBPLK اين چيه؟

دسته بندي
دسته بندي شامل شناختن خصيصه هاي اصلي(main themes)يك سندمي باشد كه اين كار باقرار دادن اين سند درون يك مجموعه از تاپيك هاي از پيش تعيين شده است.وقتي يك برنامه كامپيوتري يك سند را دسته بندي مي كند باآن مانند مجموعه اي از كلمات برخورد مي كند و مانند تكنيك استخراج اطلاعات سعي در پردازش اطلاعات نمي كند.فقط تعداد كلماتي كه در متن ظاهر شده اند را مي شمارد و ازاين تعداد محاسبه شده تاپيك هاي اصلي كه متن شامل آنهاست را تشخيص مي دهد.
دسته بندي اغلب ازيك مجموعه اطلاعات (thesaurus )استفاده مي كند( كه تاپيك ها براي اين مجموعه اطلاعات از پيش تعريف شده اند)و ارتباطات از طريق عبارت هاي وسيعتريا كوتاهتر يا هم معني يا عبارتهاي مربوطه شناخته مي شوند.
ابزار دسته بندي معمولا يك روش براي رده بنديranking))سنداه استفاده مي كنند.در اين رده بندي سندهايي كه بيشتر محتوايشان به موضوع مورد نظر مربوط است در رده هاي بالاتر قرار مي گيرند.
مانند خلاصه سازي دسته بندي مي تواند براي ....................................براي اينكه بيشترارتباط يك سند را با فردي كه در مورد يك موضوع به دنبال اطلاعات است مشخص كند.
سندها پس از اينكه مورد جستجوي موضوعي(topic tracking) قرار گرفتند...................................... .................................................. .................................................. .................................................. .................................................. .................................................. .................................................. .................................................. .................................................. ..................
كاربرد دسته بندي در تجارت و صنعت:
بسياري از فروشنده ها براي حمايت از مشتريان خود بايدبه سوالات آنها راجع به موضوعات مختلف پاسخ بدهند.آنها مي توانندبا استفاده از دسته بندي سندهاي خود را كه در مورد موضوعات مختلفي است دسته بندي كنند تا مشتريان راحت تر پاسخ هاي خود را از مجموعه اين سندها بيابند.
هدف دسته بندي متن كلاس بندي (دسته بندي)مجموعه اي از سندهاست يعني اينكه تعدادي دسته يا كلاس ازپيش تعيين شده داشته باشد و بتواند تشخيص دهد هر سند بايد در كدام يك از اين دسته ها قرار بگيرد.البته هر سند مي تواند به بيش از يك دسته يا كلاس تعلق داشته باشد.
استفاده از الگوريتم هاي supervised learningاين است كه دسته كننده ها (classifiers) از مثال هاي شناخته شده (labled documents) ياد بگيرند كه مثالهاي ناشناخته (unlabled documents) را به صورت خودكار دسته بندي كنند.يك مجموعه از سندهاي برچسب دار (labled documents) از منبع D={d₁,d₂,…,d𝗇} كه به يك مجموعه از كلاسهاي C={c₁,c₂,…,c𝗇} متعلق است داريم. وظيفه دسته بندي متن اين است كه به دسته كننده استفاده از اين سندها و قرار دادن هر سند جديد در اين دسته هاي مشخص شده را آموزش دهد.
در فاز آموزش n سند در p پوشه جداگانه قرار دارد كه هر پوشه به يك كلاس خاص اختصاص دارد. در گام بعدي مجموعه داده هاي آموزشي از طريق پروسه feature selection به دست مي آيند. داده متني معمولا از رشته هايي از كاراكترها تشكيل شده است كه به يك شيوه نمايش مناسب براي آموزش در آمده اند.از تحقيق هاي قبلي به اين نتيجه رسيده اند كه كلمه ها به عنوان features براي بسياري از وظايف دسته بندي متن خوب عمل مي كنند. در نمايش feature space توالي كاراكترهاي سندهاي متني به صورت توالي از كلمات نشان داده مي شوند.feature selection
شامل tockenizing the text,indexing,feature space reduction است.متن مي تواند با استفاده از تكرار عبارتterm frequency:TF)) ,inverse document frequency(IDF),term frequency inverse document frequency(TFIDF) ويا با استفاده از نمايش دودويي tockenized شود.با استفاده از اين نمايش ها مي توان فهميد global feature space از مجموعه همه سندهاي آموزشي مشخص مي شود.

در روش دسته بندي متني كه چندنوعي است(manifold text) با سندهاي متني به عنوان محورهايي(vectors) در يك فضاي n بعدي برخورد مي شودكه هر بعد مانند يك عبارت است.سپس اندازه هايي مانند كسينوس زاويه بين دو سند مي تواند معين شود. اگرچه اين فضا ممكن است روي يك manifold با تعداد ابعاد كم قرار گرفته باشد.اندازه گيري بنابراين بايد بر اساس ويژگيهاي manifold طوري معين شود كه دسته بندي متن را بهبود ببخشد.كه اين روند در شكل 9 نشان داده شده است.

در روش دسته بندي TCBPLK متن ها بر اساس محتوايشان به صورت خودكار در دسته هايي قرار مي گيرند و متن هاي يكسان بر اساس محاسبه ميزان شباهت بين آنها در دسته هاي يكساني قرار مي گيرند.پس از پروسه جمع آوري الگو(pattern aggregation ) براي word matrix تعداد كلمات به ميزان زيادي كاهش مي يابد.سپس روش TF.IDFبه كار گرفته مي شود تاVSMساخته شود.وقتي ابعادمتن از طريق پروسه P_L تاحد زيادي كاهش يافت اين روش زمان آموزش را تا حد زيادي كاهش مي دهد و سرعت دسته بندي متن را افزايش مي دهد.
فايل ضميمه
نوع فايل: doc categorization.doc (196.0 كيلو بايت, 332 نمايش)
lightinstinct آفلاين است   پاسخ با نقل قول

  #ADS
نشان دهنده تبلیغات
تبليغگر
 
 
 
تاريخ عضويت: -
محل سكونت: -
سن: 2010
پست ها: -
 

نشان دهنده تبلیغات is online  
قديمي ۰۳-۱۰-۱۳۸۹, ۰۸:۲۷ بعد از ظهر   #2 (لینک دائم)
Administrator
 
آواتار mardin200
 
تاريخ عضويت: آذر ۱۳۸۸
محل سكونت: تهران
پست ها: 309
تشكرها: 120
1,748 تشكر در 263 پست
My Mood: Mehrabon
Wink

جواب سوالاتتون:
1- در اینجا فرق بین calassification و clustering را توضیج داده ام.

3-ما کلا سه روش یادگیری داریم: باناظر-بدون ناظر و تقویتی
یادگیری supervised یا باناظر روشی است که در آن داده های نمونه که برای آموزش از آنها استفاده می کنیم، مقدار خروجی یا نوع خروجیشان مشخص است. و اصطلاحا میگیم که داده ها برچسب دارند. سیستم از طریق پیدا کردن ارتباط بین ورودی و خروجی های مرحله آموزش، یاد می گیرد که در آینده اگر داده های مشابه را دریافت کرد چه خروجیی به آنها اختصاص دهد.
ولی در یادگیری بدون ناظر مقدار خروجی داده های آموزش مشخص نیست.

4- روش هایی برای استخراج کلمات و عبارات از متن هستند.

5- ما همیشه برای مدل کردن مسئله از یک سری مشخصه هایی (Features ) استفاده می کنیم.
تعداد و نوع این مشخصه ها می تواند متفاوت باشد بستگی به این دارد که طراح چه مشخصه هایی را انتخاب می کند.
اگر تعداد این مشخصه ها زیاد باشد قطعا حجم عملیات بالا خواهد رفت ولی مدل بهتر مشخص می شود و اگر هم تعداد مشخصه ها کم باشند حجم محاسبات کم است ولی در عوض مدل زیاد دقیقی را نباید انتظار داشته باشیم.
روش هایی وجود دارد که بهترین ها را طوری انتخاب کنیم که هم تعدادشان زیاد نباشد و هم به خوبی مشخص کننده داده ها باشند که به این روش ها feature selection می گویند.
البته برای این کار از feature extraction هم استفاده می شود.

بقیه سوالهایتان هم باید کل مقاله را بخونم تا جوابتونو بدم.
mardin200 آفلاين است   پاسخ با نقل قول
از mardin200 تشكر كرده است:
mahimahi123 (۰۵-۲۷-۱۳۹۱)
قديمي ۰۸-۲۴-۱۳۸۹, ۰۸:۳۸ بعد از ظهر   #3 (لینک دائم)
عضو جدید
 
آواتار pooran
 
تاريخ عضويت: آبان ۱۳۸۹
پست ها: 3
تشكرها: 0
0 تشكر در 0 پست
پيش فرض

کسی در مورد کلاسه بندی و الگوریتم های اون مثلc4.5 چیزی میدونه یا لینکی داره واسه بیشتر فهمیدنش؟؟؟؟؟؟
pooran آفلاين است   پاسخ با نقل قول
پاسخ



كاربران در حال ديدن تاپيک: 1 (0 عضو و 1 مهمان)
 

قوانين ارسال
You may not post new threads
You may not post replies
You may not post attachments
You may not edit your posts

BB code is فعال
شکلکها فعال است
كد [IMG] فعال است
كدهاي HTML غير فعال است
Trackbacks are فعال
Pingbacks are فعال
Refbacks are فعال




زمان محلي شما با تنظيم GMT +3.5 هم اکنون ۱۱:۱۳ قبل از ظهر ميباشد.


Powered by vBulletin® Version 3.8.3
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Search Engine Friendly URLs by vBSEO 3.1.0 ©2007, Crawlability, Inc.

Teach and Learn at Hexib | Sponsored by www.Syavash.com and Product In Review

استفاده از مطالب انجمن در سایر سایت ها، تنها با ذکر انجمن هوش مصنوعي به عنوان منبع و لینک مستقیم به خود مطلب مجاز است

Inactive Reminders By Icora Web Design