كمك در فهم روش دسته بندي - Artificial Intelligence

lightinstinct · ۰۳-۱۰-۱۳۸۹, ۰۷:۲۸ بعد از ظهر

سلام
من اين مطلب در مورد تكنيك متن كاوي رو ترجمه كردم ولي بعضي جاهاشو متوجه نشدم

اگه جواب هر كدوم از اين سوالا رو ميدونيد خيلي لطف ميكنين اگه بگين.(جاهايي از اين مطلبم كه .... است نتونستم ترجمه كنم اگه مطلب انگليسيش كمكي ميكنه گذاشتمش.

1)دسته بندي يا استخراج اطلاعات يا خوشه بندي اينا هر كدوم يه روش جداگانه براي متن كاوي هستند يا همه با هم كار مي كنن؟

2)در جايي از اين مطلب ميگه اين روش سندهايي كه به موضوع خاصي مرتبط هستند رو رده بندي ميكنه همين رده بندي رو چه جوري انجام ميده؟باشمردن تعداد كلمات هرسند؟
3)منظورش از الگوريتم supervised learning همينه كه به classifierها ياد بده كه با استفاده از سندهاي مشخص سندهاي غير مشخص رو كلاس بندي كنه؟
4)TF يا IDFياTFIDF چي هستن؟
5)feature selection وfeature space چيه؟
6)text manifold يعني چه؟
7)TCBPLK اين چيه؟

دسته بندي
دسته بندي شامل شناختن خصيصه هاي اصلي(main themes)يك سندمي باشد كه اين كار باقرار دادن اين سند درون يك مجموعه از تاپيك هاي از پيش تعيين شده است.وقتي يك برنامه كامپيوتري يك سند را دسته بندي مي كند باآن مانند مجموعه اي از كلمات برخورد مي كند و مانند تكنيك استخراج اطلاعات سعي در پردازش اطلاعات نمي كند.فقط تعداد كلماتي كه در متن ظاهر شده اند را مي شمارد و ازاين تعداد محاسبه شده تاپيك هاي اصلي كه متن شامل آنهاست را تشخيص مي دهد.
دسته بندي اغلب ازيك مجموعه اطلاعات (thesaurus )استفاده مي كند( كه تاپيك ها براي اين مجموعه اطلاعات از پيش تعريف شده اند)و ارتباطات از طريق عبارت هاي وسيعتريا كوتاهتر يا هم معني يا عبارتهاي مربوطه شناخته مي شوند.
ابزار دسته بندي معمولا يك روش براي رده بنديranking))سنداه استفاده مي كنند.در اين رده بندي سندهايي كه بيشتر محتوايشان به موضوع مورد نظر مربوط است در رده هاي بالاتر قرار مي گيرند.
مانند خلاصه سازي دسته بندي مي تواند براي ....................................براي اينكه بيشترارتباط يك سند را با فردي كه در مورد يك موضوع به دنبال اطلاعات است مشخص كند.
سندها پس از اينكه مورد جستجوي موضوعي(topic tracking) قرار گرفتند...................................... .................................................. .................................................. .................................................. .................................................. .................................................. .................................................. .................................................. .................................................. ..................
كاربرد دسته بندي در تجارت و صنعت:
بسياري از فروشنده ها براي حمايت از مشتريان خود بايدبه سوالات آنها راجع به موضوعات مختلف پاسخ بدهند.آنها مي توانندبا استفاده از دسته بندي سندهاي خود را كه در مورد موضوعات مختلفي است دسته بندي كنند تا مشتريان راحت تر پاسخ هاي خود را از مجموعه اين سندها بيابند.
هدف دسته بندي متن كلاس بندي (دسته بندي)مجموعه اي از سندهاست يعني اينكه تعدادي دسته يا كلاس ازپيش تعيين شده داشته باشد و بتواند تشخيص دهد هر سند بايد در كدام يك از اين دسته ها قرار بگيرد.البته هر سند مي تواند به بيش از يك دسته يا كلاس تعلق داشته باشد.
استفاده از الگوريتم هاي supervised learningاين است كه دسته كننده ها (classifiers) از مثال هاي شناخته شده (labled documents) ياد بگيرند كه مثالهاي ناشناخته (unlabled documents) را به صورت خودكار دسته بندي كنند.يك مجموعه از سندهاي برچسب دار (labled documents) از منبع D={d₁,d₂,…,d𝗇} كه به يك مجموعه از كلاسهاي C={c₁,c₂,…,c𝗇} متعلق است داريم. وظيفه دسته بندي متن اين است كه به دسته كننده استفاده از اين سندها و قرار دادن هر سند جديد در اين دسته هاي مشخص شده را آموزش دهد.
در فاز آموزش n سند در p پوشه جداگانه قرار دارد كه هر پوشه به يك كلاس خاص اختصاص دارد. در گام بعدي مجموعه داده هاي آموزشي از طريق پروسه feature selection به دست مي آيند. داده متني معمولا از رشته هايي از كاراكترها تشكيل شده است كه به يك شيوه نمايش مناسب براي آموزش در آمده اند.از تحقيق هاي قبلي به اين نتيجه رسيده اند كه كلمه ها به عنوان features براي بسياري از وظايف دسته بندي متن خوب عمل مي كنند. در نمايش feature space توالي كاراكترهاي سندهاي متني به صورت توالي از كلمات نشان داده مي شوند.feature selection
شامل tockenizing the text,indexing,feature space reduction است.متن مي تواند با استفاده از تكرار عبارتterm frequency:TF)) ,inverse document frequency(IDF),term frequency inverse document frequency(TFIDF) ويا با استفاده از نمايش دودويي tockenized شود.با استفاده از اين نمايش ها مي توان فهميد global feature space از مجموعه همه سندهاي آموزشي مشخص مي شود.

در روش دسته بندي متني كه چندنوعي است(manifold text) با سندهاي متني به عنوان محورهايي(vectors) در يك فضاي n بعدي برخورد مي شودكه هر بعد مانند يك عبارت است.سپس اندازه هايي مانند كسينوس زاويه بين دو سند مي تواند معين شود. اگرچه اين فضا ممكن است روي يك manifold با تعداد ابعاد كم قرار گرفته باشد.اندازه گيري بنابراين بايد بر اساس ويژگيهاي manifold طوري معين شود كه دسته بندي متن را بهبود ببخشد.كه اين روند در شكل 9 نشان داده شده است.

در روش دسته بندي TCBPLK متن ها بر اساس محتوايشان به صورت خودكار در دسته هايي قرار مي گيرند و متن هاي يكسان بر اساس محاسبه ميزان شباهت بين آنها در دسته هاي يكساني قرار مي گيرند.پس از پروسه جمع آوري الگو(pattern aggregation ) براي word matrix تعداد كلمات به ميزان زيادي كاهش مي يابد.سپس روش TF.IDFبه كار گرفته مي شود تاVSMساخته شود.وقتي ابعادمتن از طريق پروسه P_L تاحد زيادي كاهش يافت اين روش زمان آموزش را تا حد زيادي كاهش مي دهد و سرعت دسته بندي متن را افزايش مي دهد.

**mardin200** · ۰۳-۱۰-۱۳۸۹, ۰۸:۲۷ بعد از ظهر

جواب سوالاتتون:
1- در اینجا فرق بین calassification و clustering را توضیج داده ام.

3-ما کلا سه روش یادگیری داریم: باناظر-بدون ناظر و تقویتی
یادگیری supervised یا باناظر روشی است که در آن داده های نمونه که برای آموزش از آنها استفاده می کنیم، مقدار خروجی یا نوع خروجیشان مشخص است. و اصطلاحا میگیم که داده ها برچسب دارند. سیستم از طریق پیدا کردن ارتباط بین ورودی و خروجی های مرحله آموزش، یاد می گیرد که در آینده اگر داده های مشابه را دریافت کرد چه خروجیی به آنها اختصاص دهد.
ولی در یادگیری بدون ناظر مقدار خروجی داده های آموزش مشخص نیست.

4- روش هایی برای استخراج کلمات و عبارات از متن هستند.

5- ما همیشه برای مدل کردن مسئله از یک سری مشخصه هایی (Features ) استفاده می کنیم.
تعداد و نوع این مشخصه ها می تواند متفاوت باشد بستگی به این دارد که طراح چه مشخصه هایی را انتخاب می کند.
اگر تعداد این مشخصه ها زیاد باشد قطعا حجم عملیات بالا خواهد رفت ولی مدل بهتر مشخص می شود و اگر هم تعداد مشخصه ها کم باشند حجم محاسبات کم است ولی در عوض مدل زیاد دقیقی را نباید انتظار داشته باشیم.
روش هایی وجود دارد که بهترین ها را طوری انتخاب کنیم که هم تعدادشان زیاد نباشد و هم به خوبی مشخص کننده داده ها باشند که به این روش ها feature selection می گویند.
البته برای این کار از feature extraction هم استفاده می شود.

بقیه سوالهایتان هم باید کل مقاله را بخونم تا جوابتونو بدم.

pooran · ۰۸-۲۴-۱۳۸۹, ۰۸:۳۸ بعد از ظهر

کسی در مورد کلاسه بندی و الگوریتم های اون مثلc4.5 چیزی میدونه یا لینکی داره واسه بیشتر فهمیدنش؟؟؟؟؟؟