HyperAIHyperAI
منذ 2 أشهر

ترجمة الآلة بدون إشراف باستخدام م corpuses أحادية اللغة فقط

Guillaume Lample; Alexis Conneau; Ludovic Denoyer; Marc'Aurelio Ranzato
ترجمة الآلة بدون إشراف باستخدام م corpuses أحادية اللغة فقط
الملخص

حققت الترجمة الآلية مؤخرًا أداءً مثيرًا للإعجاب بفضل التقدم الحديث في التعلم العميق وتوافر الم corpuses المتوازية على نطاق واسع. وقد تم العديد من المحاولات لتوسيع هذه النجاحات إلى أزواج اللغات ذات الموارد المحدودة، مع الحاجة إلى عشرات الآلاف من الجمل المتوازية. في هذا البحث، نأخذ هذا الاتجاه البحثي إلى أقصى حدوده وندرس إمكانية تعلم الترجمة حتى بدون أي بيانات متوازية. نقترح نموذجًا يأخذ الجمل من corpuses أحادية اللغة في لغتين مختلفتين ويقوم بتخريطها في نفس الفضاء الكامن. من خلال تعلم إعادة بناء الجمل في كلتا اللغتين من هذا الفضاء المشترك للميزات، يتمكن النموذج فعليًا من تعلم الترجمة دون استخدام أي بيانات مصنفة. نظهر فعالية نموذجنا على مجموعتي بيانات شائعتين وأزواج لغوية اثنتين، حيث سجلنا درجات BLEU قدرها 32.8 و15.1 على مجموعتي البيانات Multi30k وWMT الإنجليزية-الفرنسية، دون استخدام جملة متوازية واحدة أثناء التدريب.注释:在阿拉伯语中,“parallel corpora”通常翻译为“corpuses متوازية”,而“monolingual corpora”则翻译为“corpuses أحادية اللغة”。为了保持专业性和准确性,这里采用了这些通用译法。