Artificial Intelligence - هوش مصنوعی  
انجمن را در گوگل محبوب کنيد :

بازگشت   Artificial Intelligence - هوش مصنوعی > یادگیری (Learning) > دسته بندي (Classification)


 
تبليغات سايت
Iranian Association for the Advancement of Artificial Intelligence
 
 
LinkBack ابزارهاي تاپيک نحوه نمايش
قديمي ۰۳-۱۰-۱۳۸۹, ۰۷:۲۸ بعد از ظهر   #1 (لینک دائم)
عضو جدید
 
آواتار lightinstinct
 
تاريخ عضويت: خرداد ۱۳۸۹
پست ها: 6
تشكرها: 0
3 تشكر در 2 پست
My Mood: Sepasgozar
پيش فرض كمك در فهم روش دسته بندي

سلام
من اين مطلب در مورد تكنيك متن كاوي رو ترجمه كردم ولي بعضي جاهاشو متوجه نشدم اگه جواب هر كدوم از اين سوالا رو ميدونيد خيلي لطف ميكنين اگه بگين.(جاهايي از اين مطلبم كه .... است نتونستم ترجمه كنم اگه مطلب انگليسيش كمكي ميكنه گذاشتمش.

1)دسته بندي يا استخراج اطلاعات يا خوشه بندي اينا هر كدوم يه روش جداگانه براي متن كاوي هستند يا همه با هم كار مي كنن؟

2)در جايي از اين مطلب ميگه اين روش سندهايي كه به موضوع خاصي مرتبط هستند رو رده بندي ميكنه همين رده بندي رو چه جوري انجام ميده؟باشمردن تعداد كلمات هرسند؟
3)منظورش از الگوريتم supervised learning همينه كه به classifierها ياد بده كه با استفاده از سندهاي مشخص سندهاي غير مشخص رو كلاس بندي كنه؟
4)TF يا IDFياTFIDF چي هستن؟
5)feature selection وfeature space چيه؟
6)text manifold يعني چه؟
7)TCBPLK اين چيه؟

دسته بندي
دسته بندي شامل شناختن خصيصه هاي اصلي(main themes)يك سندمي باشد كه اين كار باقرار دادن اين سند درون يك مجموعه از تاپيك هاي از پيش تعيين شده است.وقتي يك برنامه كامپيوتري يك سند را دسته بندي مي كند باآن مانند مجموعه اي از كلمات برخورد مي كند و مانند تكنيك استخراج اطلاعات سعي در پردازش اطلاعات نمي كند.فقط تعداد كلماتي كه در متن ظاهر شده اند را مي شمارد و ازاين تعداد محاسبه شده تاپيك هاي اصلي كه متن شامل آنهاست را تشخيص مي دهد.
دسته بندي اغلب ازيك مجموعه اطلاعات (thesaurus )استفاده مي كند( كه تاپيك ها براي اين مجموعه اطلاعات از پيش تعريف شده اند)و ارتباطات از طريق عبارت هاي وسيعتريا كوتاهتر يا هم معني يا عبارتهاي مربوطه شناخته مي شوند.
ابزار دسته بندي معمولا يك روش براي رده بنديranking))سنداه استفاده مي كنند.در اين رده بندي سندهايي كه بيشتر محتوايشان به موضوع مورد نظر مربوط است در رده هاي بالاتر قرار مي گيرند.
مانند خلاصه سازي دسته بندي مي تواند براي ....................................براي اينكه بيشترارتباط يك سند را با فردي كه در مورد يك موضوع به دنبال اطلاعات است مشخص كند.
سندها پس از اينكه مورد جستجوي موضوعي(topic tracking) قرار گرفتند...................................... .................................................. .................................................. .................................................. .................................................. .................................................. .................................................. .................................................. .................................................. ..................
كاربرد دسته بندي در تجارت و صنعت:
بسياري از فروشنده ها براي حمايت از مشتريان خود بايدبه سوالات آنها راجع به موضوعات مختلف پاسخ بدهند.آنها مي توانندبا استفاده از دسته بندي سندهاي خود را كه در مورد موضوعات مختلفي است دسته بندي كنند تا مشتريان راحت تر پاسخ هاي خود را از مجموعه اين سندها بيابند.
هدف دسته بندي متن كلاس بندي (دسته بندي)مجموعه اي از سندهاست يعني اينكه تعدادي دسته يا كلاس ازپيش تعيين شده داشته باشد و بتواند تشخيص دهد هر سند بايد در كدام يك از اين دسته ها قرار بگيرد.البته هر سند مي تواند به بيش از يك دسته يا كلاس تعلق داشته باشد.
استفاده از الگوريتم هاي supervised learningاين است كه دسته كننده ها (classifiers) از مثال هاي شناخته شده (labled documents) ياد بگيرند كه مثالهاي ناشناخته (unlabled documents) را به صورت خودكار دسته بندي كنند.يك مجموعه از سندهاي برچسب دار (labled documents) از منبع D={d₁,d₂,…,d𝗇} كه به يك مجموعه از كلاسهاي C={c₁,c₂,…,c𝗇} متعلق است داريم. وظيفه دسته بندي متن اين است كه به دسته كننده استفاده از اين سندها و قرار دادن هر سند جديد در اين دسته هاي مشخص شده را آموزش دهد.
در فاز آموزش n سند در p پوشه جداگانه قرار دارد كه هر پوشه به يك كلاس خاص اختصاص دارد. در گام بعدي مجموعه داده هاي آموزشي از طريق پروسه feature selection به دست مي آيند. داده متني معمولا از رشته هايي از كاراكترها تشكيل شده است كه به يك شيوه نمايش مناسب براي آموزش در آمده اند.از تحقيق هاي قبلي به اين نتيجه رسيده اند كه كلمه ها به عنوان features براي بسياري از وظايف دسته بندي متن خوب عمل مي كنند. در نمايش feature space توالي كاراكترهاي سندهاي متني به صورت توالي از كلمات نشان داده مي شوند.feature selection
شامل tockenizing the text,indexing,feature space reduction است.متن مي تواند با استفاده از تكرار عبارتterm frequency:TF)) ,inverse document frequency(IDF),term frequency inverse document frequency(TFIDF) ويا با استفاده از نمايش دودويي tockenized شود.با استفاده از اين نمايش ها مي توان فهميد global feature space از مجموعه همه سندهاي آموزشي مشخص مي شود.

در روش دسته بندي متني كه چندنوعي است(manifold text) با سندهاي متني به عنوان محورهايي(vectors) در يك فضاي n بعدي برخورد مي شودكه هر بعد مانند يك عبارت است.سپس اندازه هايي مانند كسينوس زاويه بين دو سند مي تواند معين شود. اگرچه اين فضا ممكن است روي يك manifold با تعداد ابعاد كم قرار گرفته باشد.اندازه گيري بنابراين بايد بر اساس ويژگيهاي manifold طوري معين شود كه دسته بندي متن را بهبود ببخشد.كه اين روند در شكل 9 نشان داده شده است.

در روش دسته بندي TCBPLK متن ها بر اساس محتوايشان به صورت خودكار در دسته هايي قرار مي گيرند و متن هاي يكسان بر اساس محاسبه ميزان شباهت بين آنها در دسته هاي يكساني قرار مي گيرند.پس از پروسه جمع آوري الگو(pattern aggregation ) براي word matrix تعداد كلمات به ميزان زيادي كاهش مي يابد.سپس روش TF.IDFبه كار گرفته مي شود تاVSMساخته شود.وقتي ابعادمتن از طريق پروسه P_L تاحد زيادي كاهش يافت اين روش زمان آموزش را تا حد زيادي كاهش مي دهد و سرعت دسته بندي متن را افزايش مي دهد.
فايل ضميمه
نوع فايل: doc categorization.doc (196.0 كيلو بايت, 332 نمايش)
lightinstinct آفلاين است   پاسخ با نقل قول

  #ADS
نشان دهنده تبلیغات
تبليغگر
 
 
 
تاريخ عضويت: -
محل سكونت: -
سن: 2010
پست ها: -
 

نشان دهنده تبلیغات is online  
 



كاربران در حال ديدن تاپيک: 1 (0 عضو و 1 مهمان)
 

قوانين ارسال
You may not post new threads
You may not post replies
You may not post attachments
You may not edit your posts

BB code is فعال
شکلکها فعال است
كد [IMG] فعال است
كدهاي HTML غير فعال است
Trackbacks are فعال
Pingbacks are فعال
Refbacks are فعال




زمان محلي شما با تنظيم GMT +3.5 هم اکنون ۱۲:۰۷ قبل از ظهر ميباشد.


Powered by vBulletin® Version 3.8.3
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Search Engine Friendly URLs by vBSEO 3.1.0 ©2007, Crawlability, Inc.

Teach and Learn at Hexib | Sponsored by www.Syavash.com and Product In Review

استفاده از مطالب انجمن در سایر سایت ها، تنها با ذکر انجمن هوش مصنوعي به عنوان منبع و لینک مستقیم به خود مطلب مجاز است

Inactive Reminders By Icora Web Design