DeLighT: تحويلة عميقة وخفيفة الوزن

نُقدّم نموذجًا عميقًا وخفيف الوزنًا يُسمّى DeLighT، يُقدّم أداءً مماثلًا أو أفضل من النماذج القياسية القائمة على المُحوّل (Transformer) بوجود عدد أقل بكثير من المعاملات. يُوزّع DeLighT المعاملات بشكل أكثر كفاءة في حالتين: (1) داخل كل كتلة Transformer باستخدام التحويل DeLighT، وهو تحويل عميق وخفيف الوزن، و(2) عبر الكتل باستخدام التحجيم حسب الكتل، مما يسمح بجعل كتل DeLighT أقرب إلى المدخلات أخف وأضيق، وأكثر عمقًا وعرضًا في أقرب الكتل إلى المخرجات. بشكل عام، تكون شبكات DeLighT أعمق من نماذج المُحوّل القياسية بواقع 2.5 إلى 4 أضعاف، ومع ذلك فإنها تحتوي على عدد أقل من المعاملات والعمليات الحسابية. أظهرت التجارب على مهام قياسية في ترجمة الآلة والنمذجة اللغوية أن DeLighT يُنافس أو يُحسن من أداء النماذج الأساسية (Baseline Transformers) مع استخدام عدد أقل من المعاملات بنسبة 2 إلى 3 أضعاف في المتوسط. يمكن الوصول إلى الكود المصدري لدينا من خلال: \url{https://github.com/sacmehta/delight}