منذ 2 أشهر

المتحولات العالمية

Dehghani, Mostafa ; Gouws, Stephan ; Vinyals, Oriol ; Uszkoreit, Jakob ; Kaiser, Łukasz

الملخص

الشبكات العصبية المتكررة (RNNs) تتعامل مع البيانات بشكل متسلسل من خلال تحديث حالاتها مع كل نقطة بيانات جديدة، وقد كانت الخيار المعتاد لفترة طويلة في مهام نمذجة التسلسلات. ومع ذلك، فإن حسابها المتسلسل بطبيعته يجعلها بطيئة في التدريب. لقد أظهرت الأبنية ذات التغذية الأمامية والتشعيبية مؤخرًا تحقيقها لنتائج أفضل في بعض مهام نمذجة التسلسلات مثل الترجمة الآلية، مع ميزة إضافية وهي معالجتها المتزامنة لكل المدخلات في التسلسل، مما يؤدي إلى سهولة التعزيز بالتوازي ووقت تدريب أسرع. على الرغم من هذه النجاحات، فإن النماذج الشائعة للتغذية الأمامية مثل نموذج الـ Transformer لا تعمم بشكل جيد في العديد من المهام البسيطة التي تعامل معها النماذج المتكررة بسهولة، مثل نسخ السلاسل أو حتى الاستدلال المنطقي البسيط عندما تتجاوز أطوال السلسلة أو الصيغ ما تم رصده أثناء التدريب. نقترح الـ Universal Transformer (UT)، وهو نموذج متكرر للسلاسل يعتمد على التعزيز بالتوازي ويعمل بالانتباه الذاتي ويُعتبر تعميمًا لنموذج الـ Transformer ويحل هذه المشاكل. يجمع الـ UT بين قابلية التعزيز بالتوازي والمجال المستقبل العالمي للأبنية ذات التغذية الأمامية مثل الـ Transformer والانحياز الاستقرائي المتكرر للشبكات العصبية المتكررة (RNNs). كما أضفنا آلية إيقاف ديناميكية لكل موقع وتوصلنا إلى أنها تحسن الدقة في عدة مهام. على عكس الـ Transformer القياسي، يمكن إثبات أن الـ UT تحت فرضيات معينة هي كاملة-تورينغ (Turing-complete). تظهر تجاربنا أن الـ UT يتفوق على الـ Transformers القياسية في مجموعة واسعة من المهام الخوارزمية وفهم اللغة، بما في ذلك مهمة نمذجة اللغة LAMBADA الصعبة حيث حقق الـ UT مستوى جديدًا من الفن (state of the art)، وفي الترجمة الآلية حيث حقق الـ UT تحسينًا بمقدار 0.9 نقطة BLEU فوق الـ Transformers على مجموعة بيانات WMT14 En-De.