نمايش پست تنها
قديمي ۰۲-۲۴-۱۳۸۹, ۱۰:۴۰ قبل از ظهر   #1 (لینک دائم)
Astaraki Female
Administrator
 
آواتار Astaraki
 
تاريخ عضويت: خرداد ۱۳۸۷
محل سكونت: تهران-کرج!
پست ها: 3,465
تشكرها: 754
16,337 تشكر در 3,127 پست
My Mood: Mehrabon
ارسال پيغام Yahoo به Astaraki
Cool نرمالساز متون فارسی

نرمالساز متون فارسی

خلاصه مقاله:
افزايش كاربردهاي زبان فارسي در سامانه هاي رايانه اي موجب بروز چالشهاي جديدي در حوزهي پردازش متون شده است. يكي از اين چالشها مشكل تشخيص صحيح كلمات و بهخصوص كلماتچندقسمتي و مركب است. اكثر كاربران به فاصله گذاريها توجه نميكنند و همچنين قواعد دقيقي در نوشتن كلمات چندقسمتي، وجود ندارد كه باعث بروز مشكلات متعدد نشانه گذاري (Tokenizing) مي شوند. در اين مقاله، روشي براي اصلاح نشانه هاي (Tokens) فارسي ارائه شده است. متون فارسي جهت استفاده در هر سيستم بايد داراي كلمات مشخص و مجزا باشند. در روش پيشنهادي براي نشانه گذاري، مشكل تصريفي ها و مركبها حل ميشود و هر كلمه مركب يا چندقسمتي يك نشانه است. اين روش با تهيه ي لغتنامه هاي مربوط به كلمات مركب و برخي استثنائات، متون داراي دستورالعملهاي متفاوت نوشتاري را به نشانه هايي منطبق بر استاندارد مينگارد. نتايج نهايي، عملكرد بسيار خوب اين روش را به صورت مجزا و به عنوان پيش پردازش ساير فعاليتها، بالاي 99 % و بسيار موثر نشان ميدهند.

كلمات كليدي:
پردازش زبان طبيعي، نرمالسازي، نشانه گذاري، واژه هاي تصريفي، Scheme
فايل ضميمه
نوع فايل: pdf CSICC15_252_280420.pdf (79.5 كيلو بايت, 239 نمايش)
Astaraki آفلاين است   پاسخ با نقل قول
از Astaraki تشكر كرده اند:
mofateh (۰۱-۲۷-۱۳۹۳), mr.xvi (۱۲-۸-۱۳۹۲)

  #ADS
نشان دهنده تبلیغات
تبليغگر
 
 
 
تاريخ عضويت: -
محل سكونت: -
سن: 2010
پست ها: -
 

نشان دهنده تبلیغات is online