الترجمة العصبية الآلية في الزمن الخطي

نقدم شبكة عصبية جديدة لمعالجة التسلسلات. يتألف ByteNet من شبكتين عصبيتين اثنتين ذاتيتي البعد الواحد، إحداهما لترميز التسلسل المصدر والثانية لفك ترميز التسلسل الهدف. يتم ربط الجزأين من الشبكة عن طريق تجميع فك الترميز فوق الترميز مع الحفاظ على دقة الوقت للتسلسلات. للتعامل مع الاختلاف في أطوال التسلسلات المصدر والهدف، نقدم آلية فعالة تسمح بتوسيع فك الترميز بشكل ديناميكي عبر تمثيل الترميز. يستخدم ByteNet التقنية الموسعة (dilation) في طبقات التجعيد (convolutional layers) لزيادة مجال الاستقبال (receptive field). تتسم الشبكة الناتجة بخاصيتين أساسيتين: تعمل في وقت خطي بالنسبة لأطوال التسلسلات وتتجنب الحاجة إلى حفظ مفرط. حقق فك ترميز ByteNet أفضل الأداء على مستوى الحروف في نمذجة اللغة وتفوق على أفضل النتائج السابقة التي تم الحصول عليها باستخدام الشبكات المتكررة (recurrent networks). كما حقق ByteNet أفضل الأداء في ترجمة آلة على مستوى الحرف للترجمة الإنجليزية-الألمانية في مهمة WMT للترجمة، متجاوزًا نماذج الترجمة العصبية المماثلة التي تعتمد على الشبكات المتكررة مع تجميع الانتباه (attentional pooling) والتي تعمل في وقت مربع. وجدنا أن الهيكل الضمني للمواءمة (latent alignment structure) الموجود في التمثيلات يعكس المواءمة المتوقعة بين الرموز (tokens).