Command Palette
Search for a command to run...
تخفيف نماذج المُحَوِّل باستخدام تجميع تمثيل قابل للتدريب
تخفيف نماذج المُحَوِّل باستخدام تجميع تمثيل قابل للتدريب
Anonymous
الملخص
نُقدِّم طريقة جديدة لاستخدام التمثيلات النادرة للانتباه في نموذج الترانسفورمر من خلال تعلُّم اختيار تمثيلات الرموز الأكثر إفادة خلال عملية التدريب، وبالتالي التركيز على الأجزاء الخاصة بالمهام في المدخلات. تم تحقيق خفض في التعقيد الزمني والذاكرة من الدرجة التربيعية إلى تحت الخطية بفضل عملية اختيار القمة القابلة للتدريب المُحكمة لـ k. تُظهر تجاربنا على مهمة صعبة لاستخلاص ملخصات الوثائق الطويلة أن حتى الأساس البسيط لدينا يُحقق أداءً يُنافس الحالة الراهنة للحالة المثلى (SOTA)، وباستخدام عملية تجميع قابلة للتدريب، يمكن الحفاظ على الجودة العالية، مع تسريع بنسبة 1.8 مرة أثناء التدريب، وبنسبة 4.5 مرة أثناء الاستنتاج، وبنسبة تصل إلى 13 مرة من حيث الكفاءة الحسابية في الوحدة المُفسِّرة.