Artificial Intelligence - هوش مصنوعی - نمايش پست تنها - پایان نامه: خلاصه‌سازي گزينشي چند‌سندي متون فارسي

**Astaraki** · ۰۶-۱۸-۱۳۸۹, ۰۵:۲۳ بعد از ظهر

پایان نامه: خلاصه‌سازي گزينشي چند‌سندي متون فارسي

ايان‌نامه براي دريافت درجه کارشناسي ارشد در رشته مهندسي کامپيوتر گرايش هوش مصنوعي

تاریخ دفاع: 7 ارديبهشت‌ماه 1388

چکیده

در اين پايان‌نامه، یک روش مبتنی بر خوشه‌بندی براي خلاصه‌سازي چند‌سندي متون پيشنهاد شده است. يک سامانه‌ي خلاصه‌سازي گزينشي چند‌سندي، خلاصه‌سازي است که چند سند را به عنوان ورودي مي‌گيرد و خلاصه‌اي توليد مي‌کند که گزيده‌اي از جمله‌هاي سندهاي اوليه است. اگر چه روش پيشنهادي محدود به حوزه نيست، اما ارزيابي آن روي يک مجموعه از خبرهاي ورزشي فارسی صورت گرفته است.
یکی از بخش‌های اصلی روش پيشنهادي، خوشه‌بندي جمله‌ها است. در خوشه‌بندي جمله‌ها دو راهکار برای دسته‌بندی هر چه بهتر جمله‌ها بکار گرفته شده است، که عبارتند از:
• استفاده از خوشه‌بندي سلسله‌مراتبي منفرد محدود براي خوشه‌بندي جمله‌ها.
• توليد خودکار بردارهاي همبستگي و بردارهاي واژه-بافت و استفاده از آنها براي تعيين شباهت بين جمله‌ها.
خوشه‌بندي سلسله‌مراتبي محدود با در نظر گرفت يک کران بالا براي اندازه‌ي خوشه‌ها، از به وجود آمدن خوشه‌هايي با اندازه‌‌ي بيشتر جلوگيري مي‌کند. استفاده از اين روش خوشه‌بندي کمک شاياني به گزينش بهتر جمله‌ها مي‌کند. همچنين، براي تعيين شباهت جمله‌ها که نقش مهمي در خوشه‌بندي دارد، دو روش پيشنهاد شده است. روش نخست، از همبستگي بين واژه‌ها بهره مي‌گيرد که بر مبناي رخداد همزمان واژه‌ها در يک پنجره‌ی با اندازه ثابت بدست می‌آیند. در روش دوم، از شباهت بين بردارهاي واژه-بافت واژه‌ها استفاده مي‌شود که بيانگر شباهت آنها است. بنابر مطالعه مراجع مرتبط در زبان فارسی، به نظر می‌رسد منابع نامبرده برای نخستین بار در سطح کاربردی برای زبان فارسی تولید شده‌اند.
بیشتر راهکارهای در نظر گرفته شده که خاص زبان فارسی هستند، در بخش‌هاي پيش‌پردازش و توليد منابع زباني صورت گرفته است. در بخش پيش‌پردازش، براي رفع مشکل وجود واژه‌هاي به هم چسبيده، روشي براي شناسايي و جداسازي آنها پيشنهاد شد. همچنين براي بهبود سرعت محاسبه شباهت بين بردارهاي واژه-بافت، بردارهاي جديدي به نام بردارهاي هم‌بافت پيشنهاد شد. در بردار هم‌بافت يک واژه، تعدادي از واژه‌هايي که بيشترين شباهت (بين بردارهاي واژه-بافت) را نسبت به واژه‌ي اصلي دارند، وجود دارد. هر واژه در اين بردار داراي يک وزن است که بيانگر ميزان شباهت آن با واژه‌ي اصلي است.
روش ارزيابي استفاده شده در اين پايان‌نامه، يک روش ارزيابي مستقيم است. اين روش شامل دو بخش است. در بخش نخست، خلاصه‌ي خودکار با تعدادي خلاصه‌ي مرجع که توسط افراد خبره تهيه شده است مقايسه مي‌شود و با اهميت بودن جمله‌هاي موجود در خلاصه مورد ارزيابي قرار مي‌گيرد. در بخش دوم، ميزان اطلاعات تکراري در جمله‌هاي گزينش شده ارزيابي مي‌شود.
نتايج حاصل از ارزيابي روش پيشنهادي نشان مي‌دهند که استفاده از خوشه‌بندي سلسله‌مراتبي محدود مي‌تواند به همراه استفاده از همبستگي لغوي جهت تعيين شباهت جمله‌ها، بهترين کيفيت را نسبت به روش‌هاي مشابه حاصل کند. با بکارگيري روش پيشنهادي، کارايي از 0.65 به 0.86 (نسبت به روش mead) بهبود يافت که اين بهبود بدون بروز افزونگي (ميزان افزونگي در دو روش يکسان است) بيشتر حاصل شد.

فایل ها:

	#ADS
نشان دهنده تبلیغات تبليغگر تاريخ عضويت: - محل سكونت: - سن: 2010 پست ها: -