التكثيف العشوائي المحدد القابل للعكس لتحسين البيانات في الترجمة الآلية العصبية

يُعد تكثيف البيانات طريقة فعّالة لتنويع المجموعات النصية في الترجمة الآلية، لكن الطرق السابقة قد تُدخل عدم اتساقًا معنويًا بين البيانات الأصلية والمعززة بسبب العمليات غير القابلة للعكس وعمليات أخذ العينات العشوائية للجزيئات الفرعية. ولإنتاج بيانات معززة متنوعة رمزيًا ومتزنة معنويًا في آنٍ واحد، نقترح طريقة تسمى "تكثيف بيانات قابل للعكس وحاسم" (DRDA)، وهي طريقة بسيطة وفعّالة لتكثيف البيانات في الترجمة الآلية العصبية. تعتمد DRDA على تقسيمات حاسمة (محددة) وعمليات قابلة للعكس لإنتاج تمثيلات متعددة المدى للجزيئات الفرعية، ثم تُقرب هذه التمثيلات معًا باستخدام تقنيات متعددة الزوايا. وبلا حاجة إلى مجموعات بيانات إضافية أو تغييرات في النموذج، تتفوّق DRDA على النماذج القوية في عدة مهام ترجمة بفارق واضح (بما يصل إلى 4.3 نقطة في معيار BLEU مقارنة بنموذج Transformer)، وتُظهر أيضًا قدرة عالية على المقاومة في البيانات الضوضائية، والموارد المحدودة، والبيانات الموزعة عبر مجالات مختلفة.