نرمالساز متون فارسی
نرمالساز متون فارسی
خلاصه مقاله:
افزايش كاربردهاي زبان فارسي در سامانه هاي رايانه اي موجب بروز چالشهاي جديدي در حوزهي پردازش متون شده است. يكي از اين چالشها مشكل تشخيص صحيح كلمات و بهخصوص كلماتچندقسمتي و مركب است. اكثر كاربران به فاصله گذاريها توجه نميكنند و همچنين قواعد دقيقي در نوشتن كلمات چندقسمتي، وجود ندارد كه باعث بروز مشكلات متعدد نشانه گذاري (Tokenizing) مي شوند. در اين مقاله، روشي براي اصلاح نشانه هاي (Tokens) فارسي ارائه شده است. متون فارسي جهت استفاده در هر سيستم بايد داراي كلمات مشخص و مجزا باشند. در روش پيشنهادي براي نشانه گذاري، مشكل تصريفي ها و مركبها حل ميشود و هر كلمه مركب يا چندقسمتي يك نشانه است. اين روش با تهيه ي لغتنامه هاي مربوط به كلمات مركب و برخي استثنائات، متون داراي دستورالعملهاي متفاوت نوشتاري را به نشانه هايي منطبق بر استاندارد مينگارد. نتايج نهايي، عملكرد بسيار خوب اين روش را به صورت مجزا و به عنوان پيش پردازش ساير فعاليتها، بالاي 99 % و بسيار موثر نشان ميدهند.
كلمات كليدي:
پردازش زبان طبيعي، نرمالسازي، نشانه گذاري، واژه هاي تصريفي، Scheme
|