نمايش پست تنها
قديمي ۰۶-۱۸-۱۳۸۹, ۰۵:۲۳ بعد از ظهر   #1 (لینک دائم)
Astaraki Female
Administrator
 
آواتار Astaraki
 
تاريخ عضويت: خرداد ۱۳۸۷
محل سكونت: تهران-کرج!
پست ها: 3,465
تشكرها: 754
16,337 تشكر در 3,127 پست
My Mood: Mehrabon
ارسال پيغام Yahoo به Astaraki
Arrow پایان نامه: خلاصه‌سازي گزينشي چند‌سندي متون فارسي

پایان نامه: خلاصه‌سازي گزينشي چند‌سندي متون فارسي

ايان‌نامه براي دريافت درجه کارشناسي ارشد در رشته مهندسي کامپيوتر گرايش هوش مصنوعي

تاریخ دفاع: 7 ارديبهشت‌ماه 1388

چکیده

در اين پايان‌نامه، یک روش مبتنی بر خوشه‌بندی براي خلاصه‌سازي چند‌سندي متون پيشنهاد شده است. يک سامانه‌ي خلاصه‌سازي گزينشي چند‌سندي، خلاصه‌سازي است که چند سند را به عنوان ورودي مي‌گيرد و خلاصه‌اي توليد مي‌کند که گزيده‌اي از جمله‌هاي سندهاي اوليه است. اگر چه روش پيشنهادي محدود به حوزه نيست، اما ارزيابي آن روي يک مجموعه از خبرهاي ورزشي فارسی صورت گرفته است.
یکی از بخش‌های اصلی روش پيشنهادي، خوشه‌بندي جمله‌ها است. در خوشه‌بندي جمله‌ها دو راهکار برای دسته‌بندی هر چه بهتر جمله‌ها بکار گرفته شده است، که عبارتند از:
• استفاده از خوشه‌بندي سلسله‌مراتبي منفرد محدود براي خوشه‌بندي جمله‌ها.
• توليد خودکار بردارهاي همبستگي و بردارهاي واژه-بافت و استفاده از آنها براي تعيين شباهت بين جمله‌ها.
خوشه‌بندي سلسله‌مراتبي محدود با در نظر گرفت يک کران بالا براي اندازه‌ي خوشه‌ها، از به وجود آمدن خوشه‌هايي با اندازه‌‌ي بيشتر جلوگيري مي‌کند. استفاده از اين روش خوشه‌بندي کمک شاياني به گزينش بهتر جمله‌ها مي‌کند. همچنين، براي تعيين شباهت جمله‌ها که نقش مهمي در خوشه‌بندي دارد، دو روش پيشنهاد شده است. روش نخست، از همبستگي بين واژه‌ها بهره مي‌گيرد که بر مبناي رخداد همزمان واژه‌ها در يک پنجره‌ی با اندازه ثابت بدست می‌آیند. در روش دوم، از شباهت بين بردارهاي واژه-بافت واژه‌ها استفاده مي‌شود که بيانگر شباهت آنها است. بنابر مطالعه مراجع مرتبط در زبان فارسی، به نظر می‌رسد منابع نامبرده برای نخستین بار در سطح کاربردی برای زبان فارسی تولید شده‌اند.
بیشتر راهکارهای در نظر گرفته شده که خاص زبان فارسی هستند، در بخش‌هاي پيش‌پردازش و توليد منابع زباني صورت گرفته است. در بخش پيش‌پردازش، براي رفع مشکل وجود واژه‌هاي به هم چسبيده، روشي براي شناسايي و جداسازي آنها پيشنهاد شد. همچنين براي بهبود سرعت محاسبه شباهت بين بردارهاي واژه-بافت، بردارهاي جديدي به نام بردارهاي هم‌بافت پيشنهاد شد. در بردار هم‌بافت يک واژه، تعدادي از واژه‌هايي که بيشترين شباهت (بين بردارهاي واژه-بافت) را نسبت به واژه‌ي اصلي دارند، وجود دارد. هر واژه در اين بردار داراي يک وزن است که بيانگر ميزان شباهت آن با واژه‌ي اصلي است.
روش ارزيابي استفاده شده در اين پايان‌نامه، يک روش ارزيابي مستقيم است. اين روش شامل دو بخش است. در بخش نخست، خلاصه‌ي خودکار با تعدادي خلاصه‌ي مرجع که توسط افراد خبره تهيه شده است مقايسه مي‌شود و با اهميت بودن جمله‌هاي موجود در خلاصه مورد ارزيابي قرار مي‌گيرد. در بخش دوم، ميزان اطلاعات تکراري در جمله‌هاي گزينش شده ارزيابي مي‌شود.
نتايج حاصل از ارزيابي روش پيشنهادي نشان مي‌دهند که استفاده از خوشه‌بندي سلسله‌مراتبي محدود مي‌تواند به همراه استفاده از همبستگي لغوي جهت تعيين شباهت جمله‌ها، بهترين کيفيت را نسبت به روش‌هاي مشابه حاصل کند. با بکارگيري روش پيشنهادي، کارايي از 0.65 به 0.86 (نسبت به روش mead) بهبود يافت که اين بهبود بدون بروز افزونگي (ميزان افزونگي در دو روش يکسان است) بيشتر حاصل شد.

فایل ها:
فايل ضميمه
نوع فايل: zip Presentation[2].zip (405.8 كيلو بايت, 170 نمايش)
نوع فايل: zip Project_Implementation.zip (5.30 مگابايت, 185 نمايش)
نوع فايل: pdf Thesis[1].pdf (610.2 كيلو بايت, 195 نمايش)
نوع فايل: zip Summarization_Corpus.zip (157.0 كيلو بايت, 134 نمايش)

ويرايش شده توسط Astaraki; ۰۶-۱۸-۱۳۸۹ در ساعت ۰۵:۴۶ بعد از ظهر
Astaraki آفلاين است   پاسخ با نقل قول
از Astaraki تشكر كرده اند:
kimia_bl (۰۶-۲۳-۱۳۸۹), mardin200 (۰۶-۲۳-۱۳۸۹), mjalal (۰۶-۱۸-۱۳۸۹), nazparva (۰۶-۱۹-۱۳۸۹)

  #ADS
نشان دهنده تبلیغات
تبليغگر
 
 
 
تاريخ عضويت: -
محل سكونت: -
سن: 2010
پست ها: -
 

نشان دهنده تبلیغات is online