HyperAIHyperAI
منذ 3 أشهر

التدريب المسبق للترجمة الآلية العصبية متعددة اللغات من خلال الاستفادة من معلومات التوافق

Zehui Lin, Xiao Pan, Mingxuan Wang, Xipeng Qiu, Jiangtao Feng, Hao Zhou, Lei Li
التدريب المسبق للترجمة الآلية العصبية متعددة اللغات من خلال الاستفادة من معلومات التوافق
الملخص

نستكشف السؤال التالي في مجال الترجمة الآلية (MT): هل يمكننا تطوير نموذج ترجمة آلية عالمي واحد يمكنه أن يُستخدم كنقطة انطلاق مشتركة، لاستخلاص نماذج مشتقة ومحسّنة لزوجين لغويين أيّين؟ نقترح منهجية mRASP، وهي طريقة لتدريب نموذج مسبق للترجمة الآلية العصبية متعددة اللغات بشكل عالمي. تكمن الفكرة الأساسية في mRASP في تقنية جديدة تُسمى "الاستبدال المُحاذاة العشوائي"، التي تُقرب الكلمات والعبارات ذات المعاني المشابهة بين لغات متعددة داخل فضاء التمثيل. تم تدريب نموذج mRASP على 32 زوجًا لغويًا معًا باستخدام فقط مجموعات بيانات عامة. ثم يتم تحسين النموذج دقيقًا على أزواج لغوية محددة في المهام اللاحقة لاستخلاص نماذج ترجمة آلية متخصصة. أجرينا تجارب واسعة على 42 اتجاهًا للترجمة في بيئات متنوعة، تشمل اللغات ذات الموارد المنخفضة والمتوسطة والغنية، وكذلك نقل المعرفة إلى أزواج لغوية نادرة أو غير شائعة. أظهرت النتائج التجريبية أن mRASP حققت تحسنًا كبيرًا في الأداء مقارنةً بالتدريب المباشر على تلك الأزواج المستهدفة. ويشكل هذا أول تحقق عملي لاستخدام أزواج لغوية منخفضة الموارد متعددة لتحسين أداء الترجمة الآلية في اللغات الغنية بالموارد. وربما يكون مفاجئًا أن mRASP قادرة حتى على تحسين جودة الترجمة في لغات نادرة لم تظهر مطلقًا في مجموعة التدريب المسبق. يتوفر الكود، والبيانات، والنموذج المُدرّب مسبقًا على الرابط: https://github.com/linzehui/mRASP.