موديلات السويب: متوسط توزيع الأوزان لنماذج مُعدّلة دقيقًا متعددة يُحسّن الدقة دون زيادة زمن الاستدلال

الطريقة التقليدية لتحقيق أقصى دقة نموذجية هي (1) تدريب عدة نماذج باستخدام معلمات فائقة مختلفة، و(2) اختيار النموذج الفردي الأفضل أداءً على مجموعة التحقق المُحفوظة، مع التخلص من بقية النماذج. في هذه الورقة، نعيد النظر في الخطوة الثانية من هذه العملية في سياق تحسين النماذج الكبيرة المُدرَّبة مسبقًا، حيث تظهر النماذج المُحسَّنة غالبًا في "حوض خطأ منخفض" واحد. نُظهر أن متوسط أوزان عدة نماذج تم تحسينها باستخدام تكوينات معلمات فائقة مختلفة يؤدي غالبًا إلى تحسين في الدقة والثبات. على عكس التجميع التقليدي (ensemble)، يمكننا متوسط عدد كبير من النماذج دون تحمل أي تكاليف إضافية في الاستدلال أو الذاكرة — ونُسمّي النتائج الناتجة "حساء النماذج" (model soups). عند تحسين النماذج الكبيرة المُدرَّبة مسبقًا مثل CLIP وALIGN وViT-G المُدرَّب على JFT، تُقدّم وصفتنا "حساء النماذج" تحسينات كبيرة مقارنة بالنموذج الأفضل في جولة تحسين المعلمات الفائقة على ImageNet. النموذج الناتج من ViT-G، الذي حقق دقة 90.94% في التصنيف الأولي على ImageNet، حقق حالة جديدة من الريادة (state of the art). علاوةً على ذلك، نُظهر أن نهج "حساء النماذج" يمكن تعميمه على مهام متعددة للتصنيف الصوتي ومعالجة اللغة الطبيعية، ويُحسّن الأداء خارج التوزيع (out-of-distribution)، ويُعزز الأداء في المهام السفلية (downstream) دون تدريب (zero-shot). أخيرًا، نربط تحليليًا بين تشابه الأداء بين متوسط الأوزان (weight-averaging) وتوحيد القيم النهائية (logit-ensembling) وملاءمة سطح دالة الخسارة (flatness) وثقة التنبؤات، ونُثبت هذا الارتباط تجريبيًا. الكود متاح على: https://github.com/mlfoundations/model-soups.