HyperAIHyperAI
منذ 17 أيام

DeLighT: تحويلة عميقة وخفيفة الوزن

Sachin Mehta, Marjan Ghazvininejad, Srinivasan Iyer, Luke Zettlemoyer, Hannaneh Hajishirzi
DeLighT: تحويلة عميقة وخفيفة الوزن
الملخص

نُقدّم نموذجًا عميقًا وخفيف الوزنًا يُسمّى DeLighT، يُقدّم أداءً مماثلًا أو أفضل من النماذج القياسية القائمة على المُحوّل (Transformer) بوجود عدد أقل بكثير من المعاملات. يُوزّع DeLighT المعاملات بشكل أكثر كفاءة في حالتين: (1) داخل كل كتلة Transformer باستخدام التحويل DeLighT، وهو تحويل عميق وخفيف الوزن، و(2) عبر الكتل باستخدام التحجيم حسب الكتل، مما يسمح بجعل كتل DeLighT أقرب إلى المدخلات أخف وأضيق، وأكثر عمقًا وعرضًا في أقرب الكتل إلى المخرجات. بشكل عام، تكون شبكات DeLighT أعمق من نماذج المُحوّل القياسية بواقع 2.5 إلى 4 أضعاف، ومع ذلك فإنها تحتوي على عدد أقل من المعاملات والعمليات الحسابية. أظهرت التجارب على مهام قياسية في ترجمة الآلة والنمذجة اللغوية أن DeLighT يُنافس أو يُحسن من أداء النماذج الأساسية (Baseline Transformers) مع استخدام عدد أقل من المعاملات بنسبة 2 إلى 3 أضعاف في المتوسط. يمكن الوصول إلى الكود المصدري لدينا من خلال: \url{https://github.com/sacmehta/delight}

DeLighT: تحويلة عميقة وخفيفة الوزن | أحدث الأوراق البحثية | HyperAI