HyperAIHyperAI

Command Palette

Search for a command to run...

FQ-ViT: الت量化 بعد التدريب للتحويلة البصرية المُكمَّلة بالكمّية

Yang Lin Tianyu Zhang Peiqin Sun Zheng Li Shuchang Zhou

الملخص

يقلل التكميم الشبكي بشكل كبير من تعقيد استدلال النموذج، وقد تم استخدامه على نطاق واسع في التطبيقات الواقعية. ومع ذلك، فإن معظم الطرق الحالية للتكميم تم تطويرها بشكل رئيسي على الشبكات العصبية التلافيفية (CNNs)، وتتعرض لتدهور شديد عند تطبيقها على نماذج المحولات البصرية المُكمّمة بالكامل. في هذا العمل، نُظهر أن العديد من هذه الصعوبات تنشأ بسبب التغير الكبير بين القنوات في مدخلات طبقة LayerNorm، ونقدّم طريقة منهجية تُسمى "عامل القوة الثنائية" (PTF) لتقليل التدهور في الأداء وتعقيد الاستدلال في المحولات البصرية المُكمّمة بالكامل. بالإضافة إلى ذلك، وبملاحظة توزيع غير متساوٍ بشكل شديد في خرائط الانتباه، نقترح طريقة تُسمى "Log-Int-Softmax" (LIS) للحفاظ على هذه الخصائص وتبسيط الاستدلال باستخدام تكميم بعرض 4 بت وعامل BitShift. أظهرت التجارب الشاملة على هياكل مختلفة تعتمد على المحولات وبنوك بيانات متنوعة أن نموذجنا المُكمّم بالكامل (FQ-ViT) يتفوق على الأعمال السابقة، حتى مع استخدام عرض بت أقل في خرائط الانتباه. على سبيل المثال، حققنا دقة 84.89% في الموضع الأول (Top-1) باستخدام ViT-L على ImageNet، و50.8 mAP باستخدام Cascade Mask R-CNN (Swin-S) على COCO. إلى حد علمنا، نحن أول من يحقق تدهورًا في الدقة دون فقدان (حوالي 1%) في المحولات البصرية المُكمّمة بالكامل. يُمكن الوصول إلى الشيفرة من خلال الرابط: https://github.com/megvii-research/FQ-ViT.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp