منذ 2 أشهر
ندرة نماذج الترانسفورمر باستخدام تجميع التمثيل القابل للتدريب
Michał Pietruszka; Łukasz Borchmann; Łukasz Garncarek

الملخص
نقترح طريقة جديدة لجعل الانتباه نادرًا في نموذج الترانسفورمر من خلال تعلم اختيار أكثر تمثيلات الرموز معلوماتية أثناء عملية التدريب، مما يتيح التركيز على الأجزاء المرتبطة بالمهمة من المدخل. تم تحقيق تخفيض التعقيد الزمني والذاكرة من التربيع إلى أقل من الخطي بفضل مشغل قابل للتدريب ومتين لاختيار أعلى $k$ (top-$k$ operator). أظهرت تجاربنا على مهمة صعبة لتلخيص الوثائق الطويلة أن حتى خطوط الأساس البسيطة لدينا تؤدي بشكل مماثل لأفضل النماذج الحالية (SOTA)، وأن مع وجود تجميع قابل للتدريب، يمكننا الحفاظ على جودتها العالية، بينما تكون أسرع بمقدار $1.8$ مرة أثناء التدريب، وأسرع بمقدار $4.5$ مرة أثناء الاستدلال، وأكثر كفاءة حسابيًا بمقدار يصل إلى $13$ مرة في المفكك (decoder).