HyperAIHyperAI
منذ 9 أيام

جودة الترانسفيرمر في زمن خطي

Weizhe Hua, Zihang Dai, Hanxiao Liu, Quoc V. Le
جودة الترانسفيرمر في زمن خطي
الملخص

نعيد النظر في الخيارات المُصممة في نماذج Transformers، ونُقدّم طرقًا لمعالجة نقاط ضعفها في التعامل مع التسلسلات الطويلة. أولاً، نقترح طبقة بسيطة تُسمى وحدة الانتباه المُحدَّدة (gated attention unit)، التي تسمح باستخدام انتباه أحادي الاتجاه أضعف مع فقدان محدود في الجودة. ثم نقترح طريقة تقريب خطيّة مكملة لهذه الطبقة الجديدة، وهي صديقة لمحطات التسارع وتمتاز بجودة تنافسية عالية. الناتج هو نموذج يُسمى FLASH، الذي يُساوي لُغَة التباين (perplexity) للنماذج المحسّنة من Transformers على طولين مختلفين للسياق: القصير (512) والطويل (8K)، مع تحقيق تسريع في التدريب يصل إلى 4.9 مرة على مجموعة بيانات Wiki-40B و12.1 مرة على مجموعة PG-19 في نمذجة اللغة التكرارية (auto-regressive language modeling)، و4.8 مرة على مجموعة C4 في نمذجة اللغة المُغطاة (masked language modeling).

جودة الترانسفيرمر في زمن خطي | أحدث الأوراق البحثية | HyperAI