الترجمة العصبية الآلية المحسنة بنحو مع تمثيلات الكلمات الواعية للنحو

أثبتت الصيغة (النحو) فعاليتها بشكل كبير في الترجمة الآلية العصبية (NMT). تدمج النماذج السابقة للترجمة الآلية العصبية الصيغة من خلال تمثيل أفضل شجرة واحدة (1-best tree) من نظام تحليل نحوي مدرب جيدًا، مثل طرق Tree-RNN و Tree-Linearization الممثلة، والتي قد تعاني من انتشار الأخطاء. في هذا العمل، نقترح طريقة جديدة لدمج الصيغة الضمنية من الجانب المصدر في الترجمة الآلية العصبية. الفكرة الأساسية هي استخدام التمثيلات الخفية الوسيطة لنظام تحليل الاعتماد (dependency parser) المدرب جيدًا بنهايته إلى نهايته، والتي تُعرف باسم تمثيلات الكلمات التي تعي حس الصيغة (syntax-aware word representations - SAWRs). ثم، نقوم بربط هذه SAWRs مع متجهات الكلمات العادية لتعزيز النماذج الأساسية للترجمة الآلية العصبية. يمكن دمج الطريقة بشكل مباشر في نماذج الترجمة الآلية العصبية المعتمدة على تحويل المتتابعات إلى متتابعات (sequence-to-sequence - Seq2Seq) المستخدمة على نطاق واسع. نبدأ بنظام أساس يعتمد على الشبكات العصبية المتكررة (RNN) كنموذج ممثل لـ Seq2Seq، ونختبر فعالية الطريقة المقترحة على مجموعتين قياسيتين من بيانات مهمتي الترجمة الصينية-الإنجليزية والإنجليزية-الفيتنامية على التوالي. أظهرت نتائج التجارب أن النهج المقترح قادر على تحقيق تحسينات كبيرة في درجة BLEU على المجموعتين مقارنة بالنظام الأساسي، بمقدار 1.74 نقطة للترجمة الصينية-الإنجليزية و0.80 نقطة للترجمة الإنجليزية-الفيتنامية على التوالي. بالإضافة إلى ذلك، فإن هذا النهج يتفوق أيضًا على طرق Tree-RNN و Tree-Linearization الصريحة.