سلام
من اين مطلب در مورد تكنيك متن كاوي رو ترجمه كردم ولي بعضي جاهاشو متوجه نشدم
اگه جواب هر كدوم از اين سوالا رو ميدونيد خيلي لطف ميكنين اگه بگين.(جاهايي از اين مطلبم كه .... است نتونستم ترجمه كنم اگه مطلب انگليسيش كمكي ميكنه گذاشتمش.
1)دسته بندي يا استخراج اطلاعات يا خوشه بندي اينا هر كدوم يه روش جداگانه براي متن كاوي هستند يا همه با هم كار مي كنن؟
2)در جايي از اين مطلب ميگه اين روش سندهايي كه به موضوع خاصي مرتبط هستند رو رده بندي ميكنه همين رده بندي رو چه جوري انجام ميده؟باشمردن تعداد كلمات هرسند؟
3)منظورش از الگوريتم supervised learning همينه كه به classifierها ياد بده كه با استفاده از سندهاي مشخص سندهاي غير مشخص رو كلاس بندي كنه؟
4)TF يا IDFياTFIDF چي هستن؟
5)feature selection وfeature space چيه؟
6)text manifold يعني چه؟
7)TCBPLK اين چيه؟
دسته بندي
دسته بندي شامل شناختن خصيصه هاي اصلي(main themes)يك سندمي باشد كه اين كار باقرار دادن اين سند درون يك مجموعه از تاپيك هاي از پيش تعيين شده است.وقتي يك برنامه كامپيوتري يك سند را دسته بندي مي كند باآن مانند مجموعه اي از كلمات برخورد مي كند و مانند تكنيك استخراج اطلاعات سعي در پردازش اطلاعات نمي كند.فقط تعداد كلماتي كه در متن ظاهر شده اند را مي شمارد و ازاين تعداد محاسبه شده تاپيك هاي اصلي كه متن شامل آنهاست را تشخيص مي دهد.
دسته بندي اغلب ازيك مجموعه اطلاعات (thesaurus )استفاده مي كند( كه تاپيك ها براي اين مجموعه اطلاعات از پيش تعريف شده اند)و ارتباطات از طريق عبارت هاي وسيعتريا كوتاهتر يا هم معني يا عبارتهاي مربوطه شناخته مي شوند.
ابزار دسته بندي معمولا يك روش براي رده بنديranking))سنداه استفاده مي كنند.در اين رده بندي سندهايي كه بيشتر محتوايشان به موضوع مورد نظر مربوط است در رده هاي بالاتر قرار مي گيرند.
مانند خلاصه سازي دسته بندي مي تواند براي ....................................براي اينكه بيشترارتباط يك سند را با فردي كه در مورد يك موضوع به دنبال اطلاعات است مشخص كند.
سندها پس از اينكه مورد جستجوي موضوعي(topic tracking) قرار گرفتند...................................... .................................................. .................................................. .................................................. .................................................. .................................................. .................................................. .................................................. .................................................. ..................
كاربرد دسته بندي در تجارت و صنعت:
بسياري از فروشنده ها براي حمايت از مشتريان خود بايدبه سوالات آنها راجع به موضوعات مختلف پاسخ بدهند.آنها مي توانندبا استفاده از دسته بندي سندهاي خود را كه در مورد موضوعات مختلفي است دسته بندي كنند تا مشتريان راحت تر پاسخ هاي خود را از مجموعه اين سندها بيابند.
هدف دسته بندي متن كلاس بندي (دسته بندي)مجموعه اي از سندهاست يعني اينكه تعدادي دسته يا كلاس ازپيش تعيين شده داشته باشد و بتواند تشخيص دهد هر سند بايد در كدام يك از اين دسته ها قرار بگيرد.البته هر سند مي تواند به بيش از يك دسته يا كلاس تعلق داشته باشد.
استفاده از الگوريتم هاي supervised learningاين است كه دسته كننده ها (classifiers) از مثال هاي شناخته شده (labled documents) ياد بگيرند كه مثالهاي ناشناخته (unlabled documents) را به صورت خودكار دسته بندي كنند.يك مجموعه از سندهاي برچسب دار (labled documents) از منبع D={d₁,d₂,…,d𝗇} كه به يك مجموعه از كلاسهاي C={c₁,c₂,…,c𝗇} متعلق است داريم. وظيفه دسته بندي متن اين است كه به دسته كننده استفاده از اين سندها و قرار دادن هر سند جديد در اين دسته هاي مشخص شده را آموزش دهد.
در فاز آموزش n سند در p پوشه جداگانه قرار دارد كه هر پوشه به يك كلاس خاص اختصاص دارد. در گام بعدي مجموعه داده هاي آموزشي از طريق پروسه feature selection به دست مي آيند. داده متني معمولا از رشته هايي از كاراكترها تشكيل شده است كه به يك شيوه نمايش مناسب براي آموزش در آمده اند.از تحقيق هاي قبلي به اين نتيجه رسيده اند كه كلمه ها به عنوان features براي بسياري از وظايف دسته بندي متن خوب عمل مي كنند. در نمايش feature space توالي كاراكترهاي سندهاي متني به صورت توالي از كلمات نشان داده مي شوند.feature selection
شامل tockenizing the text,indexing,feature space reduction است.متن مي تواند با استفاده از تكرار عبارتterm frequency:TF)) ,inverse document frequency(IDF),term frequency inverse document frequency(TFIDF) ويا با استفاده از نمايش دودويي tockenized شود.با استفاده از اين نمايش ها مي توان فهميد global feature space از مجموعه همه سندهاي آموزشي مشخص مي شود.
در روش دسته بندي متني كه چندنوعي است(manifold text) با سندهاي متني به عنوان محورهايي(vectors) در يك فضاي n بعدي برخورد مي شودكه هر بعد مانند يك عبارت است.سپس اندازه هايي مانند كسينوس زاويه بين دو سند مي تواند معين شود. اگرچه اين فضا ممكن است روي يك manifold با تعداد ابعاد كم قرار گرفته باشد.اندازه گيري بنابراين بايد بر اساس ويژگيهاي manifold طوري معين شود كه دسته بندي متن را بهبود ببخشد.كه اين روند در شكل 9 نشان داده شده است.
در روش دسته بندي TCBPLK متن ها بر اساس محتوايشان به صورت خودكار در دسته هايي قرار مي گيرند و متن هاي يكسان بر اساس محاسبه ميزان شباهت بين آنها در دسته هاي يكساني قرار مي گيرند.پس از پروسه جمع آوري الگو(pattern aggregation ) براي word matrix تعداد كلمات به ميزان زيادي كاهش مي يابد.سپس روش TF.IDFبه كار گرفته مي شود تاVSMساخته شود.وقتي ابعادمتن از طريق پروسه P_L تاحد زيادي كاهش يافت اين روش زمان آموزش را تا حد زيادي كاهش مي دهد و سرعت دسته بندي متن را افزايش مي دهد.