منذ 9 أيام

الضغط القابل للتفاضل للنموذج من خلال الضوضاء التقديرية الكمية

Alexandre Défossez, Yossi Adi, Gabriel Synnaeve

الملخص

نُقدّم DiffQ، وهي طريقة قابلة للتفاضل لضغط النماذج، تُستخدم لتمثيل المعاملات المُعدّلة بتقنية التكميم دون الحاجة إلى تقريبات التدرج (مثل مُقدّم الخط المستقيم – Straight Through Estimator). نقترح إضافة ضجيج تكميمي افتراضي مستقل إلى معاملات النموذج أثناء التدريب لتقريب تأثير مؤثر التكميم. يتميز DiffQ بأنه قابل للتفاضل بالنسبة إلى المعاملات غير المُكمّمة، وكذلك بالنسبة لعدد البتات المستخدمة. وباستخدام معلمة فائقة واحدة توازن بين حجم النموذج المُكمّم والدقة، يُحسّن DiffQ عدد البتات المستخدمة لكل معامل فردي أو لمجموعة من المعاملات، ضمن عملية تدريب نهائية متكاملة. وقد تأكدنا تجريبيًا من أن طريقة DiffQ تنافس تقنيات التكميم القائمة على STE على عدة معايير وبنية نماذج مختلفة في تصنيف الصور، ونمذجة اللغة، وفصل مصادر الصوت. على سبيل المثال، على مجموعة بيانات ImageNet، تمكّن DiffQ من تقليل حجم نموذج مبني على الترانسفيرمر ويتكون من 12 طبقة بنسبة تزيد عن 8 أضعاف (بمتوسط دقة أقل من 4 بت لكل معامل)، مع خسارة ضئيلة في دقة النموذج تبلغ 0.3%. يمكن الوصول إلى الكود عبر الرابط: github.com/facebookresearch/diffq.