مترجم آلي عصبي بدون تقسيم صريح على مستوى الحرف

الأنظمة الحالية للترجمة الآلية، سواء كانت تعتمد على الجمل أو العصبيات، قد اعتمدت بشكل شبه حصري على نمذجة على مستوى الكلمات مع تقسيم صريح. في هذا البحث، نطرح سؤالاً أساسياً: هل يمكن للترجمة الآلية العصبية إنتاج تسلسل الأحرف دون أي تقسيم صريح؟ للاجابة على هذا السؤال، قمنا بتقييم مُشفر-محوِّل يعتمد على الانتباه مع مشفر على مستوى الوحدات الفرعية للكلمات ومحوِّل على مستوى الأحرف، باستخدام المجموعات المتوازية من WMT'15 (Workshop on Machine Translation 2015) لاربع أزواج لغوية هي: الإنجليزية-التشيكية (En-Cs)، الإنجليزية-الألمانية (En-De)، الإنجليزية-الروسية (En-Ru) والإنجليزية-الفنلندية (En-Fi). تظهر تجاربنا أن النماذج ذات المحوِّل على مستوى الأحرف تتفوق على تلك التي تحتوي على محوِّل على مستوى الوحدات الفرعية للكلمات في جميع الأزواج اللغوية الأربعة. علاوةً على ذلك، فإن الجمعيات من النماذج العصبية ذات المحوِّل على مستوى الأحرف تتفوق على أفضل أنظمة الترجمة الآلية غير العصبية في أزواج اللغات الإنجليزية-التشيكية والإنجليزية-الألمانية والإنجليزية-الفنلندية وتقدم أداءً مماثلاً في الزوج اللغوي الإنجليزية-الروسية.