HyperAIHyperAI
منذ 2 أشهر

ترجمة الكلمات بدون بيانات متوازية

Alexis Conneau; Guillaume Lample; Marc'Aurelio Ranzato; Ludovic Denoyer; Hervé Jégou
ترجمة الكلمات بدون بيانات متوازية
الملخص

طرق الحالة المثلى لتعلم تمثيلات الكلمات متعددة اللغات اعتمدت على القواميس الثنائية أو النصوص المتوازية. أظهرت الدراسات الحديثة أن الحاجة إلى إشراف البيانات المتوازية يمكن تخفيفها باستخدام معلومات المستوى الحرف. رغم أن هذه الطرق أظهرت نتائج مشجعة، إلا أنها ليست مساوية لنظيراتها الخاضعة للإشراف وهي محدودة باللغات التي تشترك في حروف الأبجدية نفسها. في هذا العمل، نوضح أنه يمكن بناء قاموس ثنائي اللغة بين لغتين دون استخدام أي بيانات متوازية، من خلال تنسيق فضاءات تمثيل الكلمات الأحادية اللغة بطريقة غير خاضعة للإشراف. بدون استخدام أي معلومات حرفية، يتفوق نموذجنا حتى على الطرق الخاضعة للإشراف الموجودة في بعض أزواج اللغات عند تنفيذ المهام متعددة اللغات. تُظهر تجاربنا أن طريقتنا تعمل بشكل جيد أيضًا لأزواج اللغات البعيدة مثل الإنجليزية-الروسية أو الإنجليزية-الصينية. وأخيرًا، نصف التجارب التي أجريت على زوج اللغة الإنجليزية-الإسبيرانتو ذات الموارد المحدودة، حيث يوجد فقط كمية محدودة من البيانات المتوازية، لإظهار التأثير المحتمل لطريقتنا في الترجمة الآلية تمامًا غير الخاضعة للإشراف. الكود والتمثيلات والقواميس الخاصة بنا متاحة للعامة.

ترجمة الكلمات بدون بيانات متوازية | أحدث الأوراق البحثية | HyperAI