Command Palette
Search for a command to run...
الانتباه هو كل ما تحتاجه
الانتباه هو كل ما تحتاجه
الملخص
تعتمد النماذج المهيمنة في نقل التسلسل على شبكات عصبية معقدة، إما ذات تكرار (Recurrent) أو ذات تلافيف (Convolutional)، ضمن تكوين مُشفّر-مُفكّك (Encoder-Decoder). كما تعتمد أفضل النماذج في الأداء على ربط المُشفّر بالمُفكّك من خلال آلية انتباه (Attention Mechanism). نقترح هنا بنية شبكة جديدة بسيطة تُسمى "Transformer"، تعتمد بالكامل على آليات الانتباه، وتنبذ التكرار والتلافيف تمامًا. أظهرت التجارب على مهامين لترجمة الآلة أن هذه النماذج تتفوّق من حيث الجودة، مع كونها أكثر قابلية للتوازي، وتحتاج إلى وقت تدريب أقل بشكل ملحوظ. حقق نموذجنا نتيجة قدرها 28.4 نقطة BLEU في مهمة ترجمة اللغة الإنجليزية إلى الألمانية ضمن مسابقة WMT 2014، متفوّقًا على أفضل النتائج المُسجّلة سابقًا، بما في ذلك النماذج المجمعة، بفارق أكثر من 2 نقطة BLEU. أما في مهمة ترجمة اللغة الإنجليزية إلى الفرنسية ضمن WMT 2014، فقد تفوّق نموذجنا على الحد الأقصى المُسجّل سابقًا من حيث النموذج الواحد، بتحقيقه نتيجة جديدة قدرها 41.8 نقطة BLEU بعد تدريبه لمدة 3.5 أيام على ثماني وحدات معالجة رسومية (GPUs)، وهي نسبة ضئيلة جدًا من تكاليف التدريب المُسجّلة في أفضل النماذج المنشورة سابقًا. ونُظهر أن نموذج Transformer يتمتع بقدرة تعميم جيدة على مهام أخرى من خلال تطبيقه بنجاح على تحليل البنية النحوية للغة الإنجليزية، سواء باستخدام بيانات تدريب كبيرة أو محدودة.