HyperAIHyperAI

Command Palette

Search for a command to run...

ندرة نماذج الترانسفورمر باستخدام تجميع التمثيل القابل للتدريب

Michał Pietruszka Łukasz Borchmann Łukasz Garncarek

الملخص

نقترح طريقة جديدة لجعل الانتباه نادرًا في نموذج الترانسفورمر من خلال تعلم اختيار أكثر تمثيلات الرموز معلوماتية أثناء عملية التدريب، مما يتيح التركيز على الأجزاء المرتبطة بالمهمة من المدخل. تم تحقيق تخفيض التعقيد الزمني والذاكرة من التربيع إلى أقل من الخطي بفضل مشغل قابل للتدريب ومتين لاختيار أعلى kkk (top-kkk operator). أظهرت تجاربنا على مهمة صعبة لتلخيص الوثائق الطويلة أن حتى خطوط الأساس البسيطة لدينا تؤدي بشكل مماثل لأفضل النماذج الحالية (SOTA)، وأن مع وجود تجميع قابل للتدريب، يمكننا الحفاظ على جودتها العالية، بينما تكون أسرع بمقدار 1.81.81.8 مرة أثناء التدريب، وأسرع بمقدار 4.54.54.5 مرة أثناء الاستدلال، وأكثر كفاءة حسابيًا بمقدار يصل إلى 131313 مرة في المفكك (decoder).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp