HyperAIHyperAI

Command Palette

Search for a command to run...

جودة الترانسفيرمر في زمن خطي

Weizhe Hua Zihang Dai Hanxiao Liu Quoc V. Le

الملخص

نعيد النظر في الخيارات المُصممة في نماذج Transformers، ونُقدّم طرقًا لمعالجة نقاط ضعفها في التعامل مع التسلسلات الطويلة. أولاً، نقترح طبقة بسيطة تُسمى وحدة الانتباه المُحدَّدة (gated attention unit)، التي تسمح باستخدام انتباه أحادي الاتجاه أضعف مع فقدان محدود في الجودة. ثم نقترح طريقة تقريب خطيّة مكملة لهذه الطبقة الجديدة، وهي صديقة لمحطات التسارع وتمتاز بجودة تنافسية عالية. الناتج هو نموذج يُسمى FLASH، الذي يُساوي لُغَة التباين (perplexity) للنماذج المحسّنة من Transformers على طولين مختلفين للسياق: القصير (512) والطويل (8K)، مع تحقيق تسريع في التدريب يصل إلى 4.9 مرة على مجموعة بيانات Wiki-40B و12.1 مرة على مجموعة PG-19 في نمذجة اللغة التكرارية (auto-regressive language modeling)، و4.8 مرة على مجموعة C4 في نمذجة اللغة المُغطاة (masked language modeling).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp