HyperAIHyperAI
منذ 2 أشهر

ترجمة آليّة إحصائيّة غير مُشرف عليها

Mikel Artetxe; Gorka Labaka; Eneko Agirre
ترجمة آليّة إحصائيّة غير مُشرف عليها
الملخص

بينما اعتمد الترجمة الآلية الحديثة على مجموعات بيانات متوازية كبيرة، فقد نجحت سلسلة حديثة من الأبحاث في تدريب أنظمة الترجمة العصبية (NMT) من مجموعات بيانات أحادية اللغة فقط (Artetxe et al., 2018c؛ Lample et al., 2018). رغم إمكانات هذا النهج في البيئات ذات الموارد المحدودة، فإن الأنظمة الحالية لا تزال بعيدة عن نظيراتها الخاضعة للإشراف، مما يحد من فائدتها العملية. في هذا البحث، نقترح نهجًا بديلًا يستند إلى الترجمة الإحصائية القائمة على الجمل (SMT) ويقلل بشكل كبير الفجوة مع الأنظمة الخاضعة للإشراف. يستفيد طريقنا من البنية الوحدوية لـ SMT: حيث نقوم أولًا بإنشاء جدول جمل من مجموعات البيانات أحادية اللغة عبر خرائط التضمين اللغوي المتقاطع، ثم ندمجه مع نموذج لغوي للن-جرامات، ونقوم بضبط المعلمات الفائقة باستخدام طريقة MERT غير الخاضعة للإشراف. بالإضافة إلى ذلك، يحسن الترجمة العكسية التكرارية النتائج بشكل أكبر، مما يؤدي إلى تحقيق 14.08 و26.22 نقطة BLEU في WMT 2014 بين الإنجليزية والألمانية والإنجليزية والفرنسية على التوالي، وهو تحسين يزيد عن 7-10 نقاط BLEU مقارنة بأنظمة الترجمة غير الخاضعة للإشراف السابقة، ويقلل الفجوة مع SMT الخاضعة للإشراف (Moses مدربة على Europarl) إلى ما بين 2-5 نقاط BLEU. يمكن الوصول إلى تنفيذنا عبر الرابط https://github.com/artetxem/monoses