منذ 11 أيام

FQ-ViT: الت量化 بعد التدريب للتحويلة البصرية المُكمَّلة بالكمّية

Yang Lin, Tianyu Zhang, Peiqin Sun, Zheng Li, Shuchang Zhou

الملخص

يقلل التكميم الشبكي بشكل كبير من تعقيد استدلال النموذج، وقد تم استخدامه على نطاق واسع في التطبيقات الواقعية. ومع ذلك، فإن معظم الطرق الحالية للتكميم تم تطويرها بشكل رئيسي على الشبكات العصبية التلافيفية (CNNs)، وتتعرض لتدهور شديد عند تطبيقها على نماذج المحولات البصرية المُكمّمة بالكامل. في هذا العمل، نُظهر أن العديد من هذه الصعوبات تنشأ بسبب التغير الكبير بين القنوات في مدخلات طبقة LayerNorm، ونقدّم طريقة منهجية تُسمى "عامل القوة الثنائية" (PTF) لتقليل التدهور في الأداء وتعقيد الاستدلال في المحولات البصرية المُكمّمة بالكامل. بالإضافة إلى ذلك، وبملاحظة توزيع غير متساوٍ بشكل شديد في خرائط الانتباه، نقترح طريقة تُسمى "Log-Int-Softmax" (LIS) للحفاظ على هذه الخصائص وتبسيط الاستدلال باستخدام تكميم بعرض 4 بت وعامل BitShift. أظهرت التجارب الشاملة على هياكل مختلفة تعتمد على المحولات وبنوك بيانات متنوعة أن نموذجنا المُكمّم بالكامل (FQ-ViT) يتفوق على الأعمال السابقة، حتى مع استخدام عرض بت أقل في خرائط الانتباه. على سبيل المثال، حققنا دقة 84.89% في الموضع الأول (Top-1) باستخدام ViT-L على ImageNet، و50.8 mAP باستخدام Cascade Mask R-CNN (Swin-S) على COCO. إلى حد علمنا، نحن أول من يحقق تدهورًا في الدقة دون فقدان (حوالي 1%) في المحولات البصرية المُكمّمة بالكامل. يُمكن الوصول إلى الشيفرة من خلال الرابط: https://github.com/megvii-research/FQ-ViT.