نظریات ترجمه - Artificial Intelligence

Padin · ۰۴-۲۶-۱۳۸۷, ۱۲:۳۹ قبل از ظهر

سلام. امیدوارم به کمک شما در این باب بتونیم اطلاعات زیادی راجع به ماشین ترجمه رد و بدل کنیم و از مبانی و نظریات این بحث داغ بیشتر سر در بیاربم. برای شروع بهتره خودم رو معرفی کنم که چی کارم: من پادیـــن هستم؛ تا حدودی به نظریات و اصول ترجمه آشنایی دارم و از سویی با برنامه نویسی، به ویژه از نوع سطح پایین که مستلزم فهماندن بیشتری به دستگاه هست، میونه‌ی خوبی دارم. خوب بهتر است قبل از اینکه در مورد ماشین ترجمه (مخفف: MT) صحبت کنیم، به طور خلاصه از ترجمه و نظریاتش سخن برونیم:

گرچه ترجمه دارای سابقه بسیار طولانی است، اما ترجمه رشته‌ای تازه تأسیس است که پنجاه سال از عمر آن می‌گذرد.
رومان جکبسن (Roman Jakobson)، ساختارگرای آمریکایی–روسی، ترجمه را به سه دسته تقسیم می کند:
• ترجمه درون زبانی (intralingual translation)  که همان بازگویی یک عبارت است.
• ترجمه میان زبانی (interlingual translation)  ترجمه از یک زبان به زبان دیگر.
• ترجمه میان نشانه ای (intersemiotic translation)  تبدیل نشانه های کلامی به نشانه های غیرکلامی. مثل ساخت یک فیلم یا آهنگ از یک متن.

خوب. اما نظریه‌های ترجمه چه‌جور شکل گرفتند؟ تا قبل از قرن بیستم، همه‌ی بحث ها بیشتر بر سر این بود که ترجمه «لغت به لغت» (word-for-word) باشد یا «معنی به معنی» (sense-for-sense).
در واقع تا نیمه دوم قرن بیستم، ترجمه در چاله ای گیر کرده بود که همه بحث آن بر سر سه موضوع بود: ترجمه باید آزاد (free) باشد؟ لغت به لغت (literal) باشد؟ یا وفادار (faithful)؟
بد نیست بدانیم، ترجمه انجیل و تورات بیش از یک هزاره نقطه مشاجره همه تئوری‌های ترجمه بوده است که اوج آن در دوران رنسانس دیده می شود.
اتین دولت (Etienne Dolet)، انسان گرای فرانسوی، به خاطر یک اشتباه در ترجمه کتاب مقدس (با افزودن عبارت nothing at all) به دار آویخته و سوزانده شد. (به همین سادگی!)
مارتین لوتر (Martin Luther) آلمانی که نقش کلیدی در رنسانس ایفا کرد، جزو نخستین کسانی بود که در ترجمه کتاب مقدس تحت اللفظی عمل نکرد. او کتاب مقدس را به زبان آلمانی معیار مردم ترجمه کرد.
در ترجمه کلمه-به-کلمه، مترجم باید نزدیک‌ترین واژه در زبان مقصد را برای واژه‌ی زبان مبدأ در نظر بگیرد. (که این مورد در ماشین‌های مترجم ابتدایی استفاده می‌شود و البته مترجمین تازه‌کار هم ناخودآگاه به این راه کشیده می‌شوند)
خوب. بعد نظریه‌ها به کجا کشیده شدند؟ همه چیز همین‌طور ساده پیش می‌رفت، تا که رومان جکبسون در دهه 1950، باب جدیدی را در ترجمه باز کرد و زبان‌شناسی را معیار ترجمه قرار داد. (چیزی که در ماشین‌های ترجمه‌ی امروز مورد استفاده قرار می‌گیرد)
جکبسون معتقد بود که مترجم منتقل کننده پیام یک متن منبع به زبان مقصد است. نکته حائز اهمیت آن است که جکبسون، «پیام» (message) را به عنوان «معادل» در نظر می گیرد. (نه لغت را). به عقیده جکبسون، تنها شعر – که در آن تشابه آوایی به اندازه روابط معنایی اهمیت دارد – غیرقابل ترجمه است.
اما گنده‌ی علم ترجمه همینجا قد علم کرد. «نایدا» که یک مبلغ مذهبی بود، برای اولین بار از ترجمه به عنوان یک "علم" (Science of Translation) نام برد. نایدا تمام اصطلاحات ترجمه – اعم از تحت اللفظی، آزاد و وفادارانه – را رها کرد و گفت: رابطه بین خواننده متن ترجمه شده و پیام باید اساسا همانند رابطه بین خواننده اصلی و پیام اصلی باشد. یعنی متن ترجمه شده باید همان اثر را بر خواننده مقصد بگذارد که متن مبدا بر روی خواننده زبان مبدا گذاشته است.

خوب نظریه‌های ترجمه تازه از نایدا به بعد شروع میشه. ولی فکر می‌کنم تا اینجا یه دید کلی از ترجمه و نظریاتش پیدا کرده باشین. پیاده‌سازی همین ایده نایدا در یک ماشین ترجمه کار سختیه.

اما در مورد ماشین ترجمه: همونطور که از اسمش پیداس، یه ماشین ترجمه سعی داره که بدون استفاده از نیروی انسانی، یک متن رو از زبان مبدا (Source Language = SL) به زبان مقصد (Target Language = TL) ترجمه کنه. البته یک ماشین ترجمه می‌تونه با کمک انسان این کار رو انجام بده که در این صورت لفظ Human-Aided MT به اون اطلاق می‌شه. در پست بعدی به بیان انواع رویکردهای ترجمه‌ی یک ماشین ترجمه می‌پردازیم. امیدوارم که مطالب گفته شده مفید و مفهوم باشه. وقتتون خوش.

White.hat · ۰۶-۲۶-۱۳۸۷, ۰۹:۵۱ بعد از ظهر

لطفا در مورد سیستم مترجم گوگل هم توضیح دهید که به جه صورت عمل می کند؟
اینم لینکش برای کسانی که تا امروز از این مترجم خبر نداشتد.

Google Translate

**Siavash** · ۰۶-۲۷-۱۳۸۷, ۰۱:۴۲ بعد از ظهر

يك نكته ي جالبي كه من خيلي وقت پيش در سايت گوگل در مورد Google Translate خونده بودم و به نظرم براي بقيه هم جالب باشه:
اين سيستم فقط كلمه به كلمه، ترجمه كردن رو ياد نگرفته بر عكس چيزي كه اكثر افراد فكر مي كنند. بلكه تعداد خيلي خيلي زيادي زوج صفحه به سيستم قابل يادگيريش دادن كه يكي به زبان انگليسي بوده به عنوان مثال و ديگري به زبان ايتاليايي. و اين سيستم خودش شروع كرده به ياد گرفتن عبارات. ساختن همچين سيستمي كار خيلي آسوني نيست. چون در زبان هاي مختلف جاي نقش ها در جمله فرق مي كنه و ... به همين خاطر هست كه ترجمه ي گوگل گاهي اوقات حتي اصطلاحات رو هم ترجمه مي كنه.

كد:

Our system takes a different approach: we feed the computer billions of words of text, both monolingual text in the target language, and aligned text consisting of examples of human translations between the languages. We then apply statistical learning techniques to build a translation model. We've achieved very good results in research evaluations.

كد:

In order to develop new systems, we need large amounts of bilingual texts. If you have large amounts of bilingual texts you'd like to contribute, please let us know.

براي اطلاعات بيشتر به اين صفحه مراجعه كنيد:
Google Translate FAQ

Padin · ۰۸-۲۹-۱۳۸۷, ۱۱:۲۲ بعد از ظهر

بله همونطور که سیاوش اشاره کرده، سامانه ترجمه گوگل مبتنی بر اساس انبوه واژگان (corpus) است.
یک مثال ساده از فرهنگ لغات انبوه (corpus dictionary)، فرهنگ Collins Cobuild هست. دانشجویان زبان انگلیسی با استفاده از این فرهنگ میتوانند به کاربرد یک کلمه در متون و بافتهای متفاوت (از کتب ادبی گرفته تا متون خبری چاپی و صوتی) پی ببرند.
خوب این خیلی مهمه. مثلا شما کلمه wash و hair رو میخواهی بدونی که چه جور کنار هم میان. با استفاده از فرهنگ لغات انبوه شما میتونی جستجو کنی و مثلا مشاهده می کنی که 774 بار این واژگان کنار هم اومدن و ساختارش اینطوریه که مابین این دو کلمه هیچ حرف اضافه ای قرار نمیگیره.
یه فرهنگ لغت انبوه آنلاین رو بهتون معرفی میکنم. تستش کنید:
Corpus of Contemporary American English (COCA)

نسل پیشرفته تر ماشین های مترجم مبتنی بر انبوه متون هست و از ترجمه literal (واژه به واژه) فاصله میگیریه. با استفاده از این نوع روش، میشه درواقع collocateها رو پیدا کرد. دو لغت که خیلی پهلو هم میان رو میگن collocate. مثلا: خبر + داغ.
هرچند بعد فرهنگی ترجمه در این رویکرد نادیده گرفته میشه و باید به رویکردهای دیگه ای روی آورد.

ali-zi-zeperto · ۱۱-۱۷-۱۳۸۷, ۰۸:۴۸ بعد از ظهر

خوب اینکه دو کلمه زیاد کنار هم بیان به نظر من خیلی ربطی به ترجمه نداره.نهایت این چیزی که مطرح شده فکر می کنم آخرش این باشه که ساختار گرامری یه زبانی رو پیدا کنه.اگه غیر این هم باشه فکر کنم جزو سیستمهایی باشه که مفهوم پردازن(اینطوری که یادمه توی همین سایت هم مطرح شدن).نظر شما چیه؟اینطور نیست؟.به نظر من به ترجمه ماشینی میشه اعتماد کرد که از تست تورینگ به هر دو زبون مورد نظر سر بلند بیاد بیرون.

Padin · ۱۱-۲۸-۱۳۸۷, ۰۶:۱۹ بعد از ظهر

سلام. ببینید ماشین ترجمه قرار است یک متن ورودی از زبان مبدا (ST) بگیرد و در نهایت یک متن خروجی (TT) تحویل دهد. در این وسط، فرایند ترجمه بر دو مرحله است که نایدا در علم ترجمه میگوید. وی با استفاده از مدل چامسکی، معتقد بود که باید متن زبان مبدا یک ساختار سطحی است. زبان‌های انسان همگی (به صورت جهانی یا Universal) در ساختارهای عمقی یکسانند و تفاوت‌ها در ساختارهای سطحی است. پس باید متن زبان مبدا را از ساختار سطحی به ساختار عمقی رساند و بار دیگر این ساختار عمقی را در ساختار سطحی زبان مقصد پدید آورد. البته این نظریه نایدا، تفاوت‌های فرهنگی را نادیده می‌گرفت. بنابراین طبق این نظریه، که فوق‌العاده در ابتدای کار موثر است، فرایند ترجمه بر دو مرحله است:
1. رمزگشایی معنای متن مبدأ
2. رمزگذاری معنای متن مقصد
خوب اگر تا اینجا موافق باشید، شما میگویید که معنا در دستور زبان است و کاملا درست است. منتها شما دستور زبان را در نحو (Syntax) میبینید که عبارت است نحوه چیدمان واژگان و ساختار جمله. در حالی که از نظر زبانشناسی، دستور زبان آنچیزی نیست که در کتابهای گرامر میبینید، بلکه یعنی آنچه که در مغز متکلم یک زبان وجود دارد از اصوات گرفته تا واژگان و تا همان قواعد نحو و از همه مهمتر کاربردشناسی.
طبق سیستم شما، اگر بخواهیم یک ماشین مترجم بسازیم، فقط کافی است که یک فرهنگ لغت دو زبانه داشته باشیم و یک فرهنگ قواعد نحو دو زبانه و از ترکیب این دو، همه چیز را ترجمه کنیم. در اینجا شما نادیده گرفته اید که معنای واژه با توجه به جمله تعیین میشود و اگر قرار باشد رایانه بفهمد، با یک فرهنگ لغت و یک فرهنگ قواعد نحو کارش پیش نمی رود. در ضمن این نوع ترجمه به یک ترجمه ناجور (awkward) منتهی میشود و در نهایت از آزمون تورینگ هم حتی سربلند بیرون نمیاید.
رایانه باید بتواند همان شبکه مفاهیمی که در ذهن انسان وجود دارد را داشته باشد، تا بتواند بفهمد.
در نهایت، در مورد آزمون تورینگ باید بگویم که خیر من در زمینه ترجمه فکر نمیکنم آزمون تورینگ مقیاسی موثر باشد. دلیل اول آنکه الآن یک رایانه هرچقدر بد ترجمه کند، از خیلی از انسانها میتونه بهتر ترجمه کند و در اینجا عملکرد انسان ملاک نیست. چون خیلی از انسان ها که تسلط به زبان مبدا و مقصد هم دارند، نمی توانند ترجمه قابل قبولی ارائه دهند و ترجمه های ناجوری را تولید می کنند. دلیل دوم اینکه ممکن است یک رایانه ترجمه ای مأنوس و فصیح را بیرون بدهد، ولی از نظر معنایی منحرف شده باشد. یعنی در ساختار زبان، تسلط داشته باشد ولی معنی را درک نکند و یک معنی متفاوت بدهد.
یعنی در اینجا ملاک این نیست، که حساب کنیم یک انسان این را ترجمه کرده است یا نه. بلکه ملاک این باید باشد که معنی به درستی و در ساختار صحیح منتقل شده است که با روشهای ارزیابی ترجمه تا حدودی امکان پذیر است.
منتظر نظرات شما هستم. متشکرم