HyperAIHyperAI
منذ 17 أيام

Transformer خفيف مع انتباه على المدى الطويل والقصير

Zhanghao Wu, Zhijian Liu, Ji Lin, Yujun Lin, Song Han
Transformer خفيف مع انتباه على المدى الطويل والقصير
الملخص

أصبحت نموذج الترانسفورمر شائعًا جدًا في معالجة اللغة الطبيعية (مثل الترجمة الآلية، والإجابة على الأسئلة)؛ ومع ذلك، فإنها تتطلب كميات هائلة من الحسابات لتحقيق أداء عالٍ، مما يجعلها غير مناسبة للتطبيقات المحمولة التي تواجه قيودًا صارمة على الموارد المادية والبطارية. في هذه الورقة، نقدّم بنية فعّالة للغة الطبيعية المحمولة، تُسمّى "ترانسفورمر خفيف" (Lite Transformer)، بهدف تسهيل نشر تطبيقات معالجة اللغة الطبيعية على الأجهزة الحافة. إن المكوّن الأساسي هو الانتباه على المدى الطويل والقصير (Long-Short Range Attention - LSRA)، حيث تُخصص مجموعة من الرؤوس لنمذجة السياق المحلي (من خلال التوسيع التبادلي)، بينما تُخصص مجموعة أخرى لنمذجة العلاقات على مسافات طويلة (من خلال الانتباه). يُحقق هذا التخصص تحسينًا مستمرًا مقارنة بنموذج الترانسفورمر الأصلي في ثلاث مهام لغوية معروفة جيدًا: الترجمة الآلية، والاستخلاص التلخيصي التأملي، ونمذجة اللغة. وفي ظل قيود الموارد (500 مليون / 100 مليون عملية ضرب-جمع)، يتفوّق ترانسفورمر خفيف على نموذج الترانسفورمر في مهمة WMT'14 الإنجليزية-الفرنسية بنسبة 1.2 و1.7 نقطة في مقياس BLEU على التوالي. كما يقلّل ترانسفورمر خفيف من حسابات النموذج الأساسي للترانسفورمر بنسبة 2.5 مرة مع تدهور طفيف في الأداء بمقدار 0.3 نقطة في BLEU. وبالجمع بين تقنيتي التقطيع (pruning) والكمّية (quantization)، تم تقليل حجم النموذج لترانسفورمر خفيف بنسبة 18.2 مرة. بالنسبة لنمذجة اللغة، يحقق ترانسفورمر خفيف تقليلًا بنسبة 1.8 في معامل التباس (perplexity) مقارنة بالترانسفورمر عند حوالي 500 مليون عملية ضرب-جمع. وبشكل ملحوظ، يتفوّق ترانسفورمر خفيف على نموذج الترانسفورمر المُطوّر عبر الذكاء الاصطناعي المُتدرّب (AutoML-based Evolved Transformer) بنسبة 0.5 نقطة أعلى في BLEU ضمن بيئة تطبيقات اللغة الطبيعية المحمولة، دون الحاجة إلى عملية بحث مكلفة عن البنية المعمارية التي تستغرق أكثر من 250 سنة من استخدام وحدات معالجة الرسومات (GPU). تم إتاحة الشفرة المصدرية على الرابط التالي: https://github.com/mit-han-lab/lite-transformer.

Transformer خفيف مع انتباه على المدى الطويل والقصير | أحدث الأوراق البحثية | HyperAI