
لقد أبرزت الدراسات الحديثة قوة هندسة الترانسفورمر في مهام التسلسل، وفي الوقت نفسه، بدأت بحث الهندسة العصبية (Neural Architecture Search - NAS) في تفوق النماذج المصممة من قبل البشر. هدفنا هو تطبيق NAS للبحث عن بديل أفضل للترانسفورمر. نقوم أولاً ببناء فضاء بحث كبير مستوحى من التقدم الحديث في نماذج التسلسل ذات التغذية الأمامية، ثم نجري عملية البحث عن الهندسة التطورية مع بدء دافئ من خلال زراعة السكان الأولي بالترانسفورمر. لإجراء البحث مباشرة على مهمة الترجمة المكلفة حسابياً WMT 2014 بين الإنجليزية والألمانية، طوّرنا طريقة الحواجز الديناميكية التدريجية (Progressive Dynamic Hurdles)، والتي تتيح لنا تخصيص موارد أكثر بشكل ديناميكي للنماذج المرشحة الأكثر وعداً. لقد أظهرت الهندسة التي تم اكتشافها في تجاربنا -- وهي الترانسفورمر التطوري -- تحسيناً ثابتاً على الترانسفورمر في أربع مهام لغوية راسخة: WMT 2014 بين الإنجليزية والألمانية، WMT 2014 بين الإنجليزية والفرنسية، WMT 2014 بين الإنجليزية والتشيكية وLM1B. عند حجم النموذج الكبير، حقق الترانسفورمر التطوري درجة BLEU جديدة قياسية بلغت 29.8 على WMT 2014 بين الإنجليزية والألمانية؛ وفي الأحجام الأصغر، حقق نفس جودة الترانسفورمر الأصلي "الكبير" باستخدام 37.6% أقل من المعلمات وأفضل من الترانسفورمر بمقدار 0.7 BLEU عند حجم نموذج صديق للأجهزة المحمولة يبلغ 7 مليون معلمة.