الترجمة العكسية بدون علامات

طريقة فعّالة لتكوين عدد كبير من الجمل المتوازية لتدريب أنظمة ترجمة آلية عصبية محسّنة (NMT) هي استخدام الترجمة العكسية للبيانات الأحادية اللغة من جانب الوجهة. وقد أظهرت الطريقة القياسية للترجمة العكسية أنها غير قادرة على الاستفادة بكفاءة من الكمية الهائلة المتاحة من البيانات الأحادية اللغة، وذلك بسبب عدم قدرة نماذج الترجمة على التمييز بين البيانات المتوازية الأصلية والاصطناعية أثناء التدريب. وتم استخدام التصنيف (أو استخدام البوابات) لتمكين نماذج الترجمة من التمييز بين البيانات الاصطناعية والأصلية، مما يُحسّن من أداء الترجمة العكسية القياسية، ويتيح أيضًا استخدام الترجمة العكسية التكرارية على أزواج اللغات التي كانت تُظهر أداءً ضعيفًا باستخدام الترجمة العكسية القياسية. في هذا العمل، ننظر إلى الترجمة العكسية كمشكلة تكيّف مجال، مما يُلغِي الحاجة إلى التصنيف الصريح. في النهج المُقترح – الترجمة العكسية دون تسمية (tag-less back-translation) – تُعامل البيانات المتوازية الاصطناعية والبيانات المتوازية الأصلية على التوالي على أنها بيانات خارج المجال (out-of-domain) وداخل المجال (in-domain)، ويُظهَر أن نموذج الترجمة يستطيع تعلّم التدريب بكفاءة أكبر من خلالها من خلال التدريب المسبق (pre-training) والضبط الدقيق (fine-tuning). وقد أظهرت النتائج التجريبية أن هذا النهج يتفوّق على النهج القياسي والنهج المُصنّف للترجمة العكسية في تطبيقات ترجمة آلية عصبية منخفضة الموارد بين الإنجليزية والفيتنامية، والإنجليزية والألمانية.