LSQ+: تحسين الكمية منخفضة البت من خلال الانزلاقات القابلة للتعلم والبدء الأفضل

على عكس دالة التنشيط ReLU، فإن الدوال التنشيطية الأحدث (مثل Swish و H-swish و Mish) التي تُستخدم بشكل شائع في الهياكل الفعالة الشهيرة قد تؤدي أيضًا إلى قيم تنشيط سالبة، مع توزيع غير متوازن بين النطاقات الموجبة والسالبة. تفترض معظم طرق التكميم القابلة للتعلم النموذجية [PACT، LSQ] التكميم غير الموجّه للتنشيطات، وتُحوّل جميع القيم السالبة للتنشيطات إلى الصفر، مما يؤدي إلى خسارة كبيرة في الأداء. استخدام التكميم الموجّه بشكل بسيط لاستيعاب هذه القيم السالبة يتطلب بتًا إضافيًا للإشارة (sign bit)، وهو أمر مكلف جدًا في حالات التكميم ذات عدد منخفض من البتات (2-، 3-، 4-بت). لحل هذه المشكلة، نقترح LSQ+، وهي تمديد طبيعي لطريقة LSQ، حيث نُقدّم_scheme تكميم غير متماثل عامًا يحتوي على معاملات قابلة للتعلم للنسبة (scale) والانزياح (offset)، والتي يمكنها تعلّم استيعاب القيم السالبة للتنشيطات. كما تعاني الطرق القائمة على التدرج للتعلم في التكميم من مشاكل شائعة في الاستقرار العالي أو التباين الكبير في الأداء النهائي، مما يستدعي جهدًا كبيرًا في ضبط المعلمات الهيكلية للوصول إلى أداء مرضٍ. تخفف LSQ+ من هذه المشكلة من خلال استخدام خطة تهيئة تعتمد على متوسط مربع الخطأ (MSE) للمعاملات التكميمية. نُظهر أن هذه الطريقة تؤدي إلى تقليل كبير في التباين في الأداء النهائي عبر عدة محاولات تدريب متعددة. بشكل عام، تُظهر LSQ+ نتائج رائدة على مستوى الحالة (state-of-the-art) في نماذج EfficientNet و MixNet، كما تتفوّق بشكل ملحوظ على LSQ في حالات التكميم منخفض البت لشبكات عصبية تحتوي على دوال تنشيط Swish (مثل: زيادة بنسبة 1.8% باستخدام تكميم W4A4، وزيادة تصل إلى 5.6% باستخدام تكميم W2A2 على نموذج EfficientNet-B0 في مجموعة بيانات ImageNet). إلى حد علمنا، فإن هذا العمل هو أول عمل يُقدّم تكميمًا لهذه الهياكل إلى عرض بتات متطرفًا جدًا.