HyperAIHyperAI

Command Palette

Search for a command to run...

الضغط القابل للتفاضل للنموذج من خلال الضوضاء التقديرية الكمية

Alexandre Défossez Yossi Adi Gabriel Synnaeve

الملخص

نُقدّم DiffQ، وهي طريقة قابلة للتفاضل لضغط النماذج، تُستخدم لتمثيل المعاملات المُعدّلة بتقنية التكميم دون الحاجة إلى تقريبات التدرج (مثل مُقدّم الخط المستقيم – Straight Through Estimator). نقترح إضافة ضجيج تكميمي افتراضي مستقل إلى معاملات النموذج أثناء التدريب لتقريب تأثير مؤثر التكميم. يتميز DiffQ بأنه قابل للتفاضل بالنسبة إلى المعاملات غير المُكمّمة، وكذلك بالنسبة لعدد البتات المستخدمة. وباستخدام معلمة فائقة واحدة توازن بين حجم النموذج المُكمّم والدقة، يُحسّن DiffQ عدد البتات المستخدمة لكل معامل فردي أو لمجموعة من المعاملات، ضمن عملية تدريب نهائية متكاملة. وقد تأكدنا تجريبيًا من أن طريقة DiffQ تنافس تقنيات التكميم القائمة على STE على عدة معايير وبنية نماذج مختلفة في تصنيف الصور، ونمذجة اللغة، وفصل مصادر الصوت. على سبيل المثال، على مجموعة بيانات ImageNet، تمكّن DiffQ من تقليل حجم نموذج مبني على الترانسفيرمر ويتكون من 12 طبقة بنسبة تزيد عن 8 أضعاف (بمتوسط دقة أقل من 4 بت لكل معامل)، مع خسارة ضئيلة في دقة النموذج تبلغ 0.3%. يمكن الوصول إلى الكود عبر الرابط: github.com/facebookresearch/diffq.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp