۰۶-۲۱-۱۳۸۹, ۰۶:۲۳ قبل از ظهر
|
#1 (لینک دائم)
|
Administrator
تاريخ عضويت: خرداد ۱۳۸۷
محل سكونت: تهران-کرج!
پست ها: 3,465
تشكرها: 754
16,337 تشكر در 3,127 پست
My Mood:
|
يك روش آماري مبتني بر پيكره براي جداسازي واژه هاي به هم چسبيده
يك روش آماري مبتني بر پيكره براي جداسازي واژه هاي به هم چسبيده
چکیده :
در این مقاله، یک روش آماری مبتنی بر پیکره برای شناسایی واژههای به هم چسبیده معرفی شد. این روش، با استفاده از معیار احتمال شرطی متقارن تعیین میکند که آیا یک عنصر متنی، یک واژهی کامل است یا مجموعهای از واژههای به هم چسبیده است. روش پیشنهادی روی یک مجموعهی 18000 تایی از اخبار ورزشی مورد آزمایش قرار گرفت و نتایج قابل قبولی را نشان داد. به ازای هر دو آستانهی 0.001 و 0.0001 تعداد نمونههایی که به درستی از هم جدا شدند به کل نمونههای جداشده نسبت قابل قبولی (بیش از 80 درصد در مورد نمونههای جداشده به دو بخش) را نشان داد.
كليد واژه:
پیکرهی متنی، تعیین مرز واژهها، باهمآیی، احتمال شرطی متقارن
|
|
|