منذ 2 أشهر

الانتباه هو كل ما تحتاجه

Vaswani, Ashish ; Shazeer, Noam ; Parmar, Niki ; Uszkoreit, Jakob ; Jones, Llion ; Gomez, Aidan N. ; Kaiser, Lukasz ; Polosukhin, Illia

عرض تفاصيل الورقة البحثية

الملخص

النماذج المهيمنة لنقل التسلسلات تعتمد على شبكات عصبية معقدة متكررة أو انتقالية في تكوين مُشفر-مُفكِّك (Encoder-Decoder). تعتبر أفضل النماذج الأداء تلك التي تربط بين المُشفر والمُفكِّك من خلال آلية الانتباه (Attention Mechanism). نقترح هندسة شبكة جديدة بسيطة، وهي النموذج المتحول (Transformer)، والتي تعتمد فقط على آليات الانتباه، وتستغني تمامًا عن التكرار والانتقال. أظهرت التجارب على مهمتين لترجمة الآلة أن هذه النماذج تكون أفضل في الجودة وأكثر قابلية للترابط المتوازي وتحتاج إلى وقت أقل بكثير للتدريب. حقق نموذجنا درجة 28.4 BLEU في مهمة ترجمة الإنجليزية إلى الألمانية لعام 2014 من مشروع WMT، مما يمثل تحسينًا على أفضل النتائج الموجودة، بما في ذلك المجموعات، بمقدار أكثر من 2 BLEU. وفي مهمة ترجمة الإنجليزية إلى الفرنسية لعام 2014 من مشروع WMT، حقق نموذجنا درجة BLEU قياسية جديدة لمهمة واحدة بلغت 41.8 بعد التدريب لمدة 3.5 يوم على ثماني بطاقات معالجة الرسومات (GPUs)، وهو جزء صغير من تكلفة التدريب لأفضل النماذج الواردة في الأدبيات. أظهرنا أن النموذج المتحول يعمم بشكل جيد على مهام أخرى من خلال تطبيقه بنجاح على تقسيم الجمل الإنجليزية إلى عناصر دستورية (Constituency Parsing) سواءً باستخدام بيانات تدريب كبيرة أو محدودة.