پایان نامه: خلاصهسازي گزينشي چندسندي متون فارسي
پایان نامه: خلاصهسازي گزينشي چندسندي متون فارسي
اياننامه براي دريافت درجه کارشناسي ارشد در رشته مهندسي کامپيوتر گرايش هوش مصنوعي
تاریخ دفاع: 7 ارديبهشتماه 1388
چکیده
در اين پاياننامه، یک روش مبتنی بر خوشهبندی براي خلاصهسازي چندسندي متون پيشنهاد شده است. يک سامانهي خلاصهسازي گزينشي چندسندي، خلاصهسازي است که چند سند را به عنوان ورودي ميگيرد و خلاصهاي توليد ميکند که گزيدهاي از جملههاي سندهاي اوليه است. اگر چه روش پيشنهادي محدود به حوزه نيست، اما ارزيابي آن روي يک مجموعه از خبرهاي ورزشي فارسی صورت گرفته است.
یکی از بخشهای اصلی روش پيشنهادي، خوشهبندي جملهها است. در خوشهبندي جملهها دو راهکار برای دستهبندی هر چه بهتر جملهها بکار گرفته شده است، که عبارتند از:
• استفاده از خوشهبندي سلسلهمراتبي منفرد محدود براي خوشهبندي جملهها.
• توليد خودکار بردارهاي همبستگي و بردارهاي واژه-بافت و استفاده از آنها براي تعيين شباهت بين جملهها.
خوشهبندي سلسلهمراتبي محدود با در نظر گرفت يک کران بالا براي اندازهي خوشهها، از به وجود آمدن خوشههايي با اندازهي بيشتر جلوگيري ميکند. استفاده از اين روش خوشهبندي کمک شاياني به گزينش بهتر جملهها ميکند. همچنين، براي تعيين شباهت جملهها که نقش مهمي در خوشهبندي دارد، دو روش پيشنهاد شده است. روش نخست، از همبستگي بين واژهها بهره ميگيرد که بر مبناي رخداد همزمان واژهها در يک پنجرهی با اندازه ثابت بدست میآیند. در روش دوم، از شباهت بين بردارهاي واژه-بافت واژهها استفاده ميشود که بيانگر شباهت آنها است. بنابر مطالعه مراجع مرتبط در زبان فارسی، به نظر میرسد منابع نامبرده برای نخستین بار در سطح کاربردی برای زبان فارسی تولید شدهاند.
بیشتر راهکارهای در نظر گرفته شده که خاص زبان فارسی هستند، در بخشهاي پيشپردازش و توليد منابع زباني صورت گرفته است. در بخش پيشپردازش، براي رفع مشکل وجود واژههاي به هم چسبيده، روشي براي شناسايي و جداسازي آنها پيشنهاد شد. همچنين براي بهبود سرعت محاسبه شباهت بين بردارهاي واژه-بافت، بردارهاي جديدي به نام بردارهاي همبافت پيشنهاد شد. در بردار همبافت يک واژه، تعدادي از واژههايي که بيشترين شباهت (بين بردارهاي واژه-بافت) را نسبت به واژهي اصلي دارند، وجود دارد. هر واژه در اين بردار داراي يک وزن است که بيانگر ميزان شباهت آن با واژهي اصلي است.
روش ارزيابي استفاده شده در اين پاياننامه، يک روش ارزيابي مستقيم است. اين روش شامل دو بخش است. در بخش نخست، خلاصهي خودکار با تعدادي خلاصهي مرجع که توسط افراد خبره تهيه شده است مقايسه ميشود و با اهميت بودن جملههاي موجود در خلاصه مورد ارزيابي قرار ميگيرد. در بخش دوم، ميزان اطلاعات تکراري در جملههاي گزينش شده ارزيابي ميشود.
نتايج حاصل از ارزيابي روش پيشنهادي نشان ميدهند که استفاده از خوشهبندي سلسلهمراتبي محدود ميتواند به همراه استفاده از همبستگي لغوي جهت تعيين شباهت جملهها، بهترين کيفيت را نسبت به روشهاي مشابه حاصل کند. با بکارگيري روش پيشنهادي، کارايي از 0.65 به 0.86 (نسبت به روش mead) بهبود يافت که اين بهبود بدون بروز افزونگي (ميزان افزونگي در دو روش يکسان است) بيشتر حاصل شد.
فایل ها:
ويرايش شده توسط Astaraki; ۰۶-۱۸-۱۳۸۹ در ساعت ۰۵:۴۶ بعد از ظهر
|