ابداع و طراحي سيستم رايانهای جهت ترجمه متون علمي زبان انگليسي به زبان فارسي
ابداع و طراحي سيستم رايانهای جهت ترجمه متون علمي زبان انگليسي به زبان فارسي
دکتر فرج الله خداپرستي
طرح مسأله
الف- سيستمهايكنترلشده Controlled language systems
ب- ترجمه با استعانت از كامپيوتر Computer-assisted translation
ج- سيستم تمام - اتوماتيك ترجمه ماشيني FAHQT
مكانيسم، مؤلفهها و اجزاي سازنده سيستمهاي ترجمه ماشيني
الف - واژگان
ب- نحو و ساختار
1- سيستم Augmented Transition Networks: ATN
2- سيستم Augmented Phrase Structure Grammar: APSG
3- سيستم Definite Clause Grammar: DCG
4- سيستم Lexical - Functional Grammar: LFG
5-سيستم Generalized Phrase Structure Grammar: GPSG
ج- معناشناسي
نظري گذرا بر سابقه ماشين ترجمه
فهرستي از سوابق پژوهشي نگارنده درزمينه ترجمه ماشيني
حدود نيم قرن از زمان ظهور نخستين سيستمهاي نرمافزاري ترجمه ماشينيسپري شده و در خلال اين مدت، جهان شاهد پيشرفتهايي چشمگير در قلمرو ترجمه ماشيني و دستاوردهاي متنوع جانبي آن بوده است. اهميت اين پديده جديد و مقتضاي عصر اطلاعاتايجاب كرده است كه ميزان سرمايه گذاري كشورها در اين عرصه، در طي سالهاي گذشتهچشمگير و معادل ارقامي نجومي باشد. به عنوان نمونه در كشور كوچك هلند در سال 1983،هفده ميليون گيلدر معادل هشت ونيم ميليون دلار به يك طرح تحقيقاتي ترجمه ماشيني اختصاص دادهشده(1) و هدف پروژه مذكور تنها ترجمه شيوه نگهداري و كاربرد سلاح نظامي از زبان انگليسي بهزبان فرانسه بوده است. علت اين اقبال و عنايت، لحاظ اين واقعيت است كه دستيابي به سيستمترجمه ماشيني بالذاته ميتواند زمينهساز رشد علمي و توسعه ملي باشد و در ديگر عرصههايمورد نياز جوامع امروزي نيز تحولاتي شگرف پديد آورد. ظهور اينترنت و ضرورت حضور ووجود سيستم ترجمه ماشيني در كنار آن، باعث شده است كه تلاشهاي چند جانبه تحقيقاتي دراين زمينه گستردهتر و حجم سرمايهگذاريها در اين عرصه مضاعف گردد.(2)
اگر تا قبل از رونق بازار اين پديده نو، مساعي منحصرا در زمينه ابداع ترجمه ماشينيدوسويه (انگليسي به فرانسه، ژاپني به انگليسي، روسي به آلماني و...) صورت ميگرفت، در حالحاضر گرايشها معطوف به سيستمهاي چندسويه (انگليسي به فرانسه، آلماني، اسپانيولي،ايتاليائي، ژاپني، چيني و...) شده است.(3)
معالوصف عليرغم اين حقايق ملموس، در كشور ما نه تنها اين موضوع مورد تغافل قرارگرفته است، بلكه ابعاد واقعي قضيه و گستره كاربردي آن نيز نامكشوف مانده است. تصوير وتصوري كه از ترجمه ماشيني در اذهان وجود دارد، منطبق با واقعيتها نيست و متأسفانهتلاشي در جهت شناخت مسأله، اهميت و نقش آن در توسعه ملي و نيز پويائي و توليد علمي درسطح كشور صورت نگرفته است.
در اين گزارش سعي ميشود با استعانت از تجربيات و براساس يافتههاي ملموس حاصلاز بيست سال مطالعه و تحقيق و كار مداوم در زمينه زبانشناسي رايانهايcomputational linguistics، بررسي هر چند موجز و مختصر - اما دقيق و واقعگرايانه- ازكم و كيف ترجمه ماشيني ارائه گردد.
طرح مسأله
قبل از تعريف و تبيين ترجمه ماشيني، ضروري به نظر ميرسد كه از ديدگاه زبانشناسي،ماهيت ترجمه را در مفهوم عام آن يعني ترجمهاي كه توسط شخصي متخصص و زباندان انجامميگيرد و اصطلاحاً به ترجمه انساني human translation تعبير شده است، بازشناسي كنيم.با آنكه سابقه ترجمه به قبل از قرن اول ميلادي برميگردد، هنوز هم تعريفي جامع و مانع ازترجمه به گونهاي كه مورد قبول همگان باشد در اختيار نيست.(4)علت امر ناشي از نوع نگرشاهل فن- كه معمولا پيرو مكانيب مختلفاند- و شيوههاي كاربردي و روال متداول در امر ترجمهميباشد. بديهي است اگر ترجمه را از ديدگاه طرفداران >ترجمه تحتاللفظي<literal translation بنگريم تعريف، مغاير با تعاريفي خواهد بود كه هواداران >ترجمه معنائي<semantic translation يا >ترجمه آزاد< Free translation از موضوع ارائه كردهاند. مع هذانبايد از نظر دور داشت كه در تعاريف گونهگون ارائه شده از سوي زبانشناسان وتئوريسينهاي ترجمه با گرايش فكري متفاوت، نقطهنظرهاي مشترك قابل تأمل نيز هست كهجمعبندي آنها ميتواند رهگشاي ما در اين زمينه باشد. براساس اين نقطهنظرهاي مشتركميتوان چنين نتيجهگيري كرد كه هر كلام و گفته در هر زبان صورتي (Forme) دارد و محتوايي(contenu) و ترجمه عبارتست از تبديل يا برگرداندن نزديكترين پيام مستتر در صورتواژههاي زبان مبدأ >source language = SL< يعني زباني كه از آن ترجمه انجام ميگيرد به>صورت < زبان مقصد target language = TL< يعني زباني كه ترجمه متن به آن برگرداندهميشود. و اما ترجمه ماشيني Machine Translation كه در پارهاي موارد تحت عنوانترجمه خودكار )اتوماتيك، ماشيني) automatic Translation نيز معرفي شده است(6)، به سيستم نرمافزاري رايانهاي اطلاق ميشود كه از طريق آن ميتوان متون ورودي زبان مبدأ SL > > را طي فرايندهايي خاص و پيچيده - در سطوح مختلف زبانشناختي - تجزيه و تحليل ودر نهايت به زبان)يا زبانهاي مقصد (ترجمه و به صورت خروجي در اختيار كاربر قرار داد. درواقع در طراحي نرمافزار ترجمه ماشيني تمهيداتي انديشيده و در ساختار آن مؤلفهها و اجزاييدرنظر گرفته ميشود كه عليالقاعده بايد سيستم را قادر سازد تا تقريبا همانند فردي مترجم تجزيه و تحليلهاي زبانشناختي متن ورودي را انجام داده تا با بهرهگيري از دادهها و براساسيافتهها، معادل جملات زبان مبدأ را در زبان مقصد توليد كند. انجام اين عمل مستلزم آن است كهسيستم علاوه بر برنامهاي رايانهاي متشكل از مجموعه الگوريتمهاي خاص و پيچيده، مجموعهفرهنگها و بانكهاي اطلاعاتي محتوي واژگان و قواعد ساختاري و معناشناختي زبانهاي مبدأ ومقصد نيز در اختيار داشته باشد.
اگر بتوان ادعا كرد كه امكان تدوين فرهنگ قواعد ساختاري يا واژگان دستوري grammatical words)) نسبتا كامل فراهم باشد، مختصه و ويژگي زبان به گونهاي است كه درهيچ برههاي از زمان نميتوان فرهنگي -هر چند مبسوط - را يافت كه دربر دارنده همه واژههايآن زبان باشد، چه زبان پديدهاي است زايا و هر زمان ميتوان انتظار داشت كه واژههايي جديدخلق و به مجموعه واژگان آن زبان افزوده شود. از اين گذشته وجود خطاهاي املايي در متنميتواند در جريان كار ترجمه ايجاد اختلال كند.(7) مترجمين ورزيده در رويارويي با كلماتناشناخته يا ساختارهاي شاذ جملات، با مراجعه به منابع معتبر، تجربيات و دانش فردي و يا ازطريق استنتاج و استقراء به حل مشكل و مسأله ميپردازند. در ترجمه ماشيني نيز بايد در مقابلاين گونه پديدهها از ساز و كاري مشابه بهره جست، يعني بايد سيستم به ابزاري خاص مجهزباشد تا اختلالي در امر ترجمه بوجود نيايد. ماشينهاي ترجمه گوناگون و معمولي موجود درسطح بازار عموما فاقد اين ساز و كارند و طبيعي است كه محتواي برون داد آنها مغلوط و نامفهوم باشد و در نتيجه مشاهده ميشود كه حاصل كا ر اينگونه سيستمها، نه تنها مطلوبنيست، بلكه در مواردي عديده، بطور كلي غيرقابل استفادهاند.(8 )در گزارشهاي متعدد اعلام شدهاست كه سيستمهايي در تيراژهايي بالا و قيمتهايي نسبتا متعادل - و حتي گاهي در سطحجهاني و با تبليغاتي گسترده به بازار عرصه شده، خريدار فقط يك بار از آنها استفاده كرده و بهعلت عدم رضايت آنها را به دور افكنده است.!(9)و اما سيستمهايي كه براساس معيارهاي علميطراحي و در ساختار آنها از مكانيسمهايي منطقي و براساس دانش زبانشناسي رايانهاياستفاده شده است، به سه گروه تقسيمبندي ميشوند.(10)
الف(سيستمsystemsهايكنترل شدهControlled language
پس از كاربرد درازمدت سيستم ترجمه ماشيني در زمينه كاري مشخص و محدود وحصول تجربيات كاملا موفق و رضايتبخش، گرايشها بيشتر معطوف به ابداع سيستمهايكاربردي با مجموعه واژگان و ساختارهاي معين و از پيش تعيين شده است. اغلب مؤسسات وسازمانها درپي دستيابي به سيستمهاي ترجمه ماشينياند كه نيازشان را در زمينه فعاليتهايتخصصي آنها مرتفع سازد، بويژه آنكه اينگونه سيستمها معمولا چند زبانهاند. در اينسيستمها ميزان خطا به حداقل و ميزان انعطافپذيري، در امر برنامهريزي زباني به حداكثرميرسد و امكان اعمال ديدگاههاي زبانشناختي واقعا بيشتر است. با توجه به كارآيي درخورتوجه اينگونه سيستمها و مختصات مطلوب آنها، كمپانيها و مؤسسات ترجيح ميدهند به جايتهيه نرمافزارهاي ترجمه ماشيني تجارتي، رأسا سفارش سيستمهاي ترجمه ماشيني متناسب با خواستها و حوزه فعاليت تخصصي خود بدهند.
در نتيجه اين نوع تمايلات، ابداع اينگونه سيستمها در جهان رواج و رونقي بسزا يافتهاست و تنها در اروپا دهها سيستم در اين قلمرو ابداع شده كه مهمترين آنها عبارتند از: Titus،Systran، Lent، Cop Volmac، Potrans، Smart، Hook and Hatton و... اكثر اين سيستمچندزبانهاند و برخي از آنها از نظر مورد حمايت مستقيم دولتها و جامعه اروپا هستند.(11)
جالب توجه اين كه، جد اعلاي اينگونه سيستمها كه نخستينبار در كانادا و به منظورترجمه انگليسي به فرانسه متون مربوط به تحولات جوي و پيشبينيهاي هواشناسي- آن هم باتعدادي معدود كلمات و ساختارهايي محدود- مورد استفاده قرار ميگرفت، امروز از چنانمقبوليتي برخوردار شده است كه كتابچههاي راهنما و شيوه نگهداري بسياري از ماشينآلاتسنگين و جنگافزارهاي مدرن به زبانهاي مختلف دنيا از طريق اين نوع سيستمها ترجمهميشود و كمپانيهاي معظمي نظير زيمنس، كارترپيلار، داسو و... از مشتريان اصلي اينگونهسيستمها هستند.(12)
ب( ترجمه با استعانت از كامپيوتر Computer-assisted translation
اين نوع سيستمها تحت عنوان ترجمه ماشيني نيمهخودكار و نيز ترجمه ماشيني با كمك انسان human-assisted machine translation نيز معرفي شده است. ايده اين نوعسيستمها، حاصل تحقيق پژوهشگران دانشگاه شيكاگو آمريكاست،(13) و در پي ناكاميهايسيستمهاي ماشين ترجمه آمريكايي و عدم رضايت آنها از نتايج حاصله در دهههاي گذشته ظاهر شده است. با توجه به امكان ظهور و بروز ابهامهاي واژگاني، ساختاري و معناشناختي درامر ترجمه ماشيني و ارائه جملاتي نامربوط و اشتباه به عنوان جملات خروجي و عدم توانايياصلاح و تصحيح آنها، اين شيوه عمل ترويج ميشد. نحوه كار سيستم بر اين روال است كه درهر مورد و مرحلهاي كه سيستم قادر به ايفاي نقش خود به گونهاي مطمئن نباشد ديالوگي بينكامپيوتر و كاربر برگزار ميشود و رايانه از كاربر تقاضا ميكند با توضيحات خود حل مشكليا ابهامزدايي كند، شيوه كار اين نوع سيستم ها موفقيتآميز و عملي اعلام شده است ولي از نظر سرعت واتوماسيون چندان رضايت بخش نبوده است. براساس گزارشهاي متعدد، اين نوع سيستم بيشترمورد استفاده مترجمين تازه كار و حرفهاي و مخصوصŠ بيشتر در پيش ترجمههاي theme > >يعني ترجمه از زبان مادري به زبان بيگانه كاربرد داشته است تا version يعني >ترجمه متون اززبان بيگانه به زبان مادري <. و اين خود بعد جديدي را در قلمرو ترجمه ماشيني گشودهاست.(14(به هر حال ناگفته نبايد گذاشت كه از ديدگاه بسياري از متخصصين و اهل فن سيستممورد بحث از نظر ماهوي نزديك به سيستمهايي است كه نياز به پيش - پردازش pre-edit متنداشتهاند.(15)
ج( سيستم تمام - اتوماتيك ترجمه ماشيني FAHQT
پيشرفتهاي شگفتانگيزي كه در طي سالهاي اخير در زمينه هوش مصنوعي ArtificialIntelligent =AI و تكنيك شبكه عصبي پديد آمده است، تأثير غيرقابل انكار در جهت تكامل وتوسعه ترجمه ماشيني داشته است.(16) از سوي ديگر ظهور و پيدايش اينترنت و نوع خاصاستفاده كاربر از مطالب متنوع و گسترده شبكههاي اطلاعاتي ايجاب كرده است كه حوزه وقلمرو ماشين ترجمه نيز گسترش يابد و امر ترجمه در اين حيطه چه از حيث كاربرد و چه از حيثميزان نياز كاربر ابعاد ديگري كسب كند.
طبيعتاً چون به موازات گستردگي امر، غموض و پيچيدگي قضيه نيز بيشتر شده است، بهحكم ضرورت ميبايست به منظور رفع نيازهاي كاربران چارهاي انديشيده شود. در اين راستاسيستم تمام اتوماتيك ترجمه ماشينيباكيفيتبالايعني FAHQT، Fully automatic High-Quality Translation ابداع شد.
بايد توجه داشت كه در اصل اينسيستم وجه تكامل يافته سيستمي است كه نياز به پيش- ويراستاري pre-edit وپس-ويراستاري post-edit داشته است. بديهي است كه ويراستاريهاي ياد شده توسط فردمتخصص انجام ميگرفت ولي در حال حاضر اينگونه سيستمها مجهز به غلطياب املايي ونحوي نسبتاً قدرتمندي است كه قبل از انجام ترجمه متن زبان مبدأ را آمادهسازي ميكند. پس ازانجام ترجمه نيز، از طريق خطاياب نحوي زبان مقصد، متن خروجي ويرايش ميشود و درنهايت ويرايش نهايي توسط ويراستار انجام ميگيرد.(17)
مكانيسم، مؤلفهها و اجزاي سازنده سيستمهاي ترجمه ماشيني
در ساختار سيستمهاي ترجمه ماشيني سه مؤلفه اصلي وجود دارد و هر مؤلفه نيز بهنوبه خود از مجموعه اجزايي تشكيل ميشود كه در راستاي تحقق نقش يا نقشهاي آن سه مؤلفهاصلي عمل ميكنند. مؤلفههاي فوقالذكر در تناظر با سه سطح كه علم زبانشناسي نوين برايهر زبان طبيعي و زنده قائل است قرار دارند. اين سه سطح عبارتند از:
الف - واژگان
ب- نحو و ساختار
ج- معناشناسي
بايد همواره اين نكته را درنظر داشت كه تفكيك اين سطوح مبين عدم ارتباط بين مختصاتواژگان، نحو و ساختار و معناشناسي متن نيست، بلكه هر سه سطح در سلسله مراتب چندبعديخود در حكم تار و پود يكديگرند.
به عبارت سادهتر اين تفكيك صوري و اعتباري است، و در راستاي نوعي >شبيهسازي<فرايند ترجمه، در ذهن مترجم است، در واقع ترجمه ماشيني از طريق اين شبيهسازي متحققميشود. از نظر اهميت، اولويت، سهولت پردازش و يا مسألهزايي آنها نيز نميتوان بين سه مؤلفهياد شده تفاوتي قائل شد، بلكه هر سه آنها، از ديدگاههاي ياد شده همسطحاند. شايد در وهله اولتصور شود كه در پردازشها، به علت انتزاعيتر بودن مؤلفه معناشناسي، اين سطح پيچيدهتر ودر نتيجه مسألهزاتر باشد، ولي بايد توجه داشت كه در عمل چنين نيست، هر سطح حتي سطحواژگان نيز مسائل و مشكلات خاص خود دارد چه >ابهام<ها در هر سطح ميتواند ظاهر شود.اگر در هر سطح به گونهاي منطقي با مسائل و قضايا برخورد شود از ميزان غموض و پيچيدگيو ابهامزايي در سطوح بعدي كاسته ميشود. دليل امر وجود تعامل و ارتباط ظريف بين عناصراين سه سطح است: در سطور زير سعي ميشود تصويري كلي از مكانيسم و نقش هر يك ازمؤلفههاي مورد بحث ارائه شود.
الف) واژگان
نخستين مرحله پردازش در ترجمه ماشيني در سطح واژگان انجام ميگيرد. پردازشمورد نظر عبارتست از تجزيه و تحليل مرفولوژيكي واژههاي واحد ترجمه. در اين مرحله عناصرموجود در سطح واحد ترجمه يك به يك تفكيك، پردازش و مقولهگذاري ميشوند. واژگان هرزبان مختصات و دشواريهاي خاص خود را دارد و بالقوه ميتوانند مسألهزا باشند. برخي از اينمشكلات جزو پعموميتهاپي زباني هستند و به زباني خاص اختصاص ندارند; پهمنويسههاپ ازجمله مصاديق اين مضمون به شمار ميروند: در زبان فارسي واژههاي ساده و پرتداول >مرد< و>آرد<، در زبان انگليسي واژههاي run > > و correct > > و در زبان فرانسه واژههاي livre > > و cours > > ميتوانند به مقولههاي گرامري متعدد، تعلق داشته باشند. و اين امر جدا و سواي ازپديده چند معنايي است كه در هر زبان امري عادي تلقي ميشود. عدم پردازش صحيح اينگونهموارد، ميتواند موجد مسائل و مشكلات لاينحل در مراحل و سطوح بعد ميگردد. شايان ذكر آنكه، زبان انگليسي از اين منظر جزو خطازاترين زبانها محسوب ميشود€ ولي بايد همواره به خاطرداشت كه همنويسهها تنها عامل خطازا در امر پردازش واژگان نيستند، در بعضي زبانها مشكلاتخاص و مختص آن زبان وجود دارد كه در عرصه پردازش زبان مجال ظهور و بروز يافته، منشأابهام و خطا ميشوند. انفصال و ناپيوستگي عناصر واحد ترجمه در زبان انگليسي، امكان خلطادات و انتساب آنها به سازههاي غير، از جمله عوامل ابهامزا و خطازا در مرحله پردازش واژگانمحسوب ميشود بنابراين بايد با لحاظ همه موارد مسألهآفرين، تدابيري انديشيد كه در اينسطح- به ظاهر ساده- ميزان خطا به حداقل ممكن برسد و راه براي انجام پردازش و تجزيه وتحليلهاي زبانشناختي بعدي، بهتر هموار گردد. در جهت نيل به اين هدف در زبان انگليسي اقدامات متعدد انجام گرفته است . از جمله در سال 1991 پروژهاي عظيم به مديريت كنسرسيومي متشكل از چند دانشگاه و نهاد علمي و صنعتي، منجمله دانشگاه اكسفورد و دانشگاه لانكاستر، مركز تحقيقات كتابخانه ملي بريتانيا، شوراي علمي و مهندسي، آكادمي انگليس، به منظور تدوين پيكره زباني انگليسي BNCو مقولهگذاري واژههاي انگليسي شروع و در سال 1996 خاتمه يافت. پيكره زباني براساس صدميليون واژه تدوين شد و از طريق آن امكان كددهي و مقولهگذاري فراهم آمد و در نهايت، حدود98%مقولهگذاري صحيح ميسر گشت.(18)
ب) نحو و ساختار
Parsing در اصطلاح computational linguistics يعني اجراي برنامه تجزيه و تحليلنحوي متن و يا به عبارت كليتر تجزيه و تحليل گرامري جمله از طريق كامپيوتر. و parser بهسيستمي اطلاق ميشود كه با استعانت از آن پواحد ترجمهپ از منظر ساختار و نحو تجزيه وتحليل ميشود; به نحوي كه كامپيوتر ميتواند از طريق آن به سهولت عناصر تشكيل دهندهواحد ترجمه را بازشناسي كند، نقش آنها و روابط دروني و فيمابين آن عناصر و نوع قانونحاكم بر آنها را تشخيص دهد.(19)در ترجمه ماشيني دستيابي به اطلاعات ياد شده ضروري واجتنابناپذير است، چه علاوه بر برگردان عناصر معنائي و واژگان، ترجمه ساختار نحوي واحدترجمه، از زبان مبدأ به مقصد نيز بايد انجام شود. در واقع برگردان قالب و ساختار جمله از زبانمبدأ به زبان مقصد، شرط اصلي و اساسي ترجمه است ; و اين امر جز با تجزيه و تحليل گرامريواحد ترجمه ميسر نميشود.
انجام اين مهم از طريق سيستمهاي تجزيه و تحليلگر رايانهاي صورت ميگيرد. گفته شدهاست كه مهمترين ركن ماشين ترجمه تجزيه و تحليلگر نحوي يعني parserاست. هر چند اينطرز نگرش خالي از اغراق نيست ولي بيانگر اهميت دومين مؤلفه اصلي در ساختار سيستمترجمه ماشيني است. اين اهميت، انگيزه آن بوده كه تاكنون صدها نوع parserدر سطح جهانابداع شود، تنوع مكانيسمهاي بكار رفته در ساختار تجزيه و تحليلگرهاي نحوي واقعا اعجابانگيز است. تقريبا هيچ دانشگاهي و مؤسسه آموزش عالي در سطح جهان يافت نميشودكه داراي مركز تحقيقات زبانشناسي يا رايانهاي باشد و حداقل يك تجزيه و تحليلگر نحو در آنابداع نشده باشد. نقش اصلي تجزيه و تحليلگر نحوي در ساختار ترجمه ماشيني عبارتست از:
1- تشخيص دستوري بودن جمله
2- شناخت عناصر سازنده جمله و شيوه تركيب آنها به منظور تشكيل واحدهاي بزرگتر،عبارت، بند و...
3-تعيين نقش هر يك از واحدها در جمله
4- شناخت دقيق روابط معنايي بين عناصر سازنده جمله
علاوه بر نقش اصلي، نقشهاي فرعي- بنا به مقتضاي كار و سليقه مبدع - نيز براي تجزيه وتحليلگر نحوي درنظر گرفته ميشود.
شيوه كار parserها متفاوت است ولي معمولا براساس دو نوع شيوه كارشان، به دودسته تقسيمبندي ميشوند: parserهاي نزولي و صعودي. با آنكه هيچكدام از اين دو نوعparserها كامل و بينقص نيستند ولي معمولا parser نزولي بيشتر مورد توجه بوده و نميشود برسد، كه خود نشانه موفقيتآميز بودن، تجزيه و تحليل نحوياست.
نكته قابل توجه در مورد parser شبكه انتقالي نحوه انطباق آن با زبان برنامهنويسي lispاست; اگر parser يكي از اجزاي كلام مثلا اسم را بررسي ميكند، با توجه به اينكه - در اينجا-اجزاء كلام جزو نمادهاي پاياني محسوب ميشوند، از فرمان category استفاده ميكنيم(category terminal-symbol) ولي اگر parser در حال جستجوي واحد غيرپاياني نظيرعبارت اسمي باشد ناچار به شبكه عبارات اسمي رجوع كرده و در آن شبكه، كار جستجوي خودرا ادامه ميدهد، براي انجام اين عمل فرمان parser (parse nonterminal-symbol) را اجراميكنيم.
مهمترين سيستمهاي تجزيه و تحليل نحوي كامپيوتري كه در حال حاضر مورد استفادهقرار ميگيرند، عبارتند از:
1- سيستم Augmented Transition Networks) ATN)(
اين سيستم به سال 1978 و توسط Woods ابداع و پس از سالها آزمايش و تجربه و انجامپارهاي تغييرات در سال 1978 بوسيله مادلن بيتز M.Bates، سرانجام در سال 1983 و 1986 بهسعي وينوگراد Winograd و دودنز Doedens تكميل شد.(21) اين سيستم كه در نوع خودبسيار كارآ و جالب است ميتواند علاوه بر تجزيه و تحليل نحوي جملات، صحت و سقم واحدترجمه را نيز تشخيص دهد. ولي بايد توجه داشت كه نكته مهم تشخيص درستي جمله براساسمعيارهاي خاصي است كه منحصراً در عرصه Computational linguistics معتبر است ولزوماً با آنچه معيار زبانشناسي است، هماهنگ و منطبق نيست. گفته ميشود با بهرهجوئي ازسيستم ياد شده ميتوان در پارهاي از موارد مشخص، عناصر معناشناختي را نيز تجزيه وتحليل كرد.
2- سيستم Augmented Phrase Structure Grammar) APSG )
نزديكترين سيستم تجزيه و تحليل نحوي به ATN بشمار ميرود، تفاوت اصلي اين دوسيستم در اين امر نهفته است كه در سيستم APSG از ساختار شبكهايپ استفاده نميشود، هرچند اين سيستم در اصل با توجه و با تكيه بر Constituenc y ragramm(22) و آنهم براساسدستور زبان انگليسي طراحي شده است ولي امكان بهرهجوئي از آن در سيستم تجزيه و تحليلنحوي براساس dependency grammar نيز وجود دارد، اخيراٌ روايتگونه (version)جديدي از اين سيستم به منظور كاربرد در زمينههاي فرماليسم همگاني نيز ابداع شده است.
3- سيستم ( Definite Clause Grammar) DCG
از جمله ملحقات زبان برنامهنويسي كامپيوتري prolog ميباشد، يعني زباني كه در اصلبمنظور پردازش دادهها و مفروضات زبانشناختي طراحي شده است. يكي از خصوصيات عمدهسيستم DCG آنست كه كاربر در مراحل تجزيه و تحليل جمله دسترسي كمتري به مراحلاجرائي و نحوه پردازش دارد، بنابراين قدرت مانور محدود ميشود ولي كارآئي سيستم درمقايسه با ANT بهتر ارزيابي شده است.
4- سيستم Lexical - Functional Grammar) LFG )
سيستمي است كه در سال 1981 با همت R.Kaplan , Joan , Bresnan ابداع شده وبراساس ساختار سازهها عمل ميكند. مكانيسم اين سيستم به گونهاي است كه با خلق سازهساختاري يعني C-structure و F-structure، اطلاعات نحوي لازم به نمودار درختي منتقلميشود. yasukawa بر اين باور است كه ميتوان بين سيستمهاي LFG و DCG همسوئي وسازش مطلق ايجاد كرد، ولي با عنايت به مكانيسم LFG و تكيه بر وجود ساختار سازهاي تجريدي حاكم و مسلط بر ساختار واژهها، تطبيق اين دو سيستم بدون انجام تغييرات لازم در كلسيستم آسان بنظر نميرسد، قابل توجه آنكه LFG بر پايه Constituency syntax طراحيشده است.
5-سيستم Generalized Phrase Structure Grammar) GPSG )
اين parser از كار و تحقيقات Gerald Gazdar نشأت گرفته و بر مبناي دستور زايش-گشتاري طراحي شده و ميكوشد قواعد نحوي را با قواعد معناشناختي مرتبط كند. عليرغم آنكهمبناي كار دستور زايش - گشتاري است نه از قواعد گشتارها بهره ميجويد نه از ژرف ساخت;منحصراً روساخت ملاك است و به اين سبب، اين رهيافت كه جنبه صوري آن چشمگيرتر استدر سيستم ترجمه بيشتر با اقبال و استقبال روبرو ميشود.
بايد توجه داشت كه گشتارهابمنظور تبيين ويژگي توليد تعدادي نامحدود جملات از يك سري قاعدههاي محدود، بوسيلهچمسكي و بسال 1957 ارائه شد. GPSG با اين مسئله به گونهاي ديگر برخورد ميكند.در اينجافرض بر اين اصل استوار است كه تعدادي syntagma استاندارد بنام مقولات اشتقاقي وجوددارد كه ديگر syntagmaها از آنها مشتق ميشوند.
ج) معناشناسي
مشكل چندمعنايي بودن واژهها، شناخته شدهترين ويژگي زبانهاي طبيعي است و اين امرزائيده قانوني است كه در زبانشناسي تحت عنوان اقتصاد كلامي economie langagiereاشتهار يافته است
مترجم به هنگام برخورد به واژه چند معنا، با تكيه بر توانش زباني competence خود وبافتار و موضوع متن ميتواند معادل واقعي واژه را تشخيص دهد و برگزيند. رايانه فاقد چنينتوانشي است. بنابراين طراح ماشين ترجمه ناگزير است مقدماتي فراهم سازد و در الگوريتم; بهتمهيداتي دست يازد كه از طريق آن بتواند خلأ موجود را ترميم كند. اين تمهيدات بايد از نخستينمراحل پردازش يعني از مرحله واژگان و نحو و ساختار آغاز گردد و تا آخرين مرحله يعنيمرحله تجزيه و تحليل معناشناختي متن تداوم يابد. با پذيرش اين واقعيت كه نميتوان پروسهپيچيده و كاملا انتزاعي معناشناسي را در اين مختصر تشريح كرد، ناچاريم به ذكر چند نمونهمثال ساده بسنده كنيم، شايد از اين رهگذر درك مطلب ميسر گردد. مثالهاي زير ميتواندروشنگر مضمون باشد، كلمه prime در زبان انگليسي يك مقوله دستوري، چهار مقوله معناييو 16 معنا دارد. واژه suspect نيز به سه مقوله دستوري (اسم و فعل و صنعت) تعلق دارد وداراي شش مقوله معنايي و 21 معناست، minister نيز دو مقوله گرامري، شش مقوله معنايي و11 معنا دارد.
قاعدتŠ ماشين ترجمه ميتواند 1280 معادل فارسي را براي تعبير The prime suspectانتخاب كند. ولي اگر سيستم در پردازش واژگان و ساختارها دقيق عمل كرده باشد تعدادانتخابها به 32 و در نهايت اگر در مرحله پردازش معنا، منطقي با قضايا برخورد كند و فرهنگمعناشناختي تدوين شده براساس اصول زبانشناسي رايانهاي در اختيار داشته باشد، سيستممنحصراً تنها گزينه را انتخاب خواهد كرد. براساس همين محاسبه تعداد معادلهاي محتملفارسي prime minister در سيستمهاي ماشين ترجمه عادي 176 خواهد بود. ولي اگر درمراحل قبلي، براساس معيارهاي دقيق، پردازشها صورت گرفته باشد، تعداد معادلها به 112 ودر نهايت به تنها انتخاب صحيح دست خواهد يافت. واژه سه حرفي run را درنظر ميگيريم، اينواژه دو مقوله دستوري و 58 مقوله معنايي و بيش از 140 معنا دارد. تنها، سيستمي قادر خواهدبود كه معناي مناسب اين واژه را برگزيند كه با استعانت از الگوريتمي قوي و فرهنگمعناشناختي جامع بتواند مؤلفههاي معناشناختي را در طول پردازش and و or كند.
1-اجراي پروژه تحقيقاتي >واژگان و ساختار پايه زبان فارسي در سال 1364 بر اساس پيكره زباني ده ميليون واژه اي ( دانشگاه شيراز)
2 - نخستين پروژه آكادميكي ترجمه ماشيني در ايران ( دانشگاه شيراز) و ارائه نتايج آن به نخستين كنفرانس زبان شناسي ايران .
3- ابداع نخستين تجزيه وتحليلگر نحوي 1365-66 ( دانشگاه شيراز)
4- ابداع نخستين خطاياب املايي فارسي ارائه شده در نمايشگاه اپل و نرم افزار زرنگار .
5- الگوريتم و پياده سازي آزمايشي OCR
6 تدوين فرهنگ جامع واژگان مترادف و متضاد زبان فارسي ( مشتمل بر 137000 واژه و 27400 حوزه معنايي )دانشنامه پارس 1376
7 - تدوين فرهنگهاي مورد نياز مورد نياز سيستم ترجمه ماشيني انگليسي – فارسي
8- تدوين فرهنگ معارف مشتمل بر واژههاي فقه، اصول، كلام، منطق، فلسفه عرفان و تصوف،اخلاق، حديث و علوم قرآني به چهار زبان فارسي، فرانسه، انگليسي و لاتين(نرم افزار : سال 1365 – زير چاپ فرهنگ معاصر 1380
9-طرح تحقيقاتي فرهنگ بسامدي بسامد كلام امام 77- 79(دانشگاه شيراز)
10-رهيافت نو در شيوه تكيه بري واژگان زبان انگليسي - مركز نشر دانشگاه شيراز
|