الترجمة الآلية غير المشرفة القائمة على الجمل والشبكات العصبية

تُحقِّق أنظمة الترجمة الآلية أداءً قريبًا من مستوى الأداء البشري في بعض اللغات، ومع ذلك يعتمد فعاليتها بشكل كبير على توفر كميات كبيرة من الجمل المتناظرة، مما يعيق تطبيقها على معظم أزواج اللغات. تهدف هذه الدراسة إلى استكشاف كيفية تعلم الترجمة عند وجود إمكانية الوصول فقط إلى مجموعات نصوص واسعة بلغة واحدة في كل لغة. نقترح نوعين من النماذج، نموذج عصبي ونموذج قائم على الجمل. يستفيد كلا النسختين من تهيئة دقيقة للمعلمات، وتقليل الضوضاء بواسطة نماذج اللغة، وإنشاء بيانات متوازية تلقائيًا عن طريق الترجمة العكسية المتكررة. تعتبر هذه النماذج أفضل بكثير من الأساليب الواردة في الأدبيات العلمية، وهي أكثر بساطة ولديها عدد أقل من المعلمات الفائقة. في معايير WMT'14 الإنجليزية-الفرنسية وWMT'16 الألمانية-الإنجليزية التي يتم استخدامها على نطاق واسع، حصلت نماذجنا على 28.1 و25.2 نقطة BLEU دون استخدام جملة متوازية واحدة، مما يتفوق على أفضل ما هو معروف بمزيد من 11 نقطة BLEU. في اللغات ذات الموارد المنخفضة مثل الإنجليزية-الأردية والإنجليزية-الرومانية، حققت طرقنا نتائج أفضل حتى من الأساليب شبه المراقبة والمراقبة التي تستفيد من الندرة في البيانات الثنائية المتاحة (bitexts). رمز البرمجيات الخاص بنظام الترجمة العصبية (NMT) والنظام القائم على الجمل (PBSMT) متاح للجمهور بشكل مجاني.