منذ 16 أيام

ما وراء القوة الفردية: تجميعات مخصصة للنماذج البصرية-اللغوية الشاملة

Zhihe Lu, Jiawang Bai, Xin Li, Zeyu Xiao, Xinchao Wang

الملخص

تمثّل عملية التخصيص الدقيق للنماذج البصرية-اللغوية المُدرّبة مسبقًا (VLMs)، مثل CLIP، من أجل التعميم في البيئة المفتوحة، اتجاهًا متزايد الشعبية بفضل قيمتها العملية. ومع ذلك، تظل تطورات الأداء محدودة عند الاعتماد فقط على تصميمات خوارزمية معقدة لنموذج واحد، حتى لو كان هذا النموذج يُظهر أداءً قويًا، مثل CLIP-ViT-B/16. في هذه الورقة، لأول مرة، نستكشف القدرة التعاونية لاستخدام نماذج VLMs أضعف بكثير لتعزيز قدرة النموذج الفردي القوي على التعميم. تُثري النتائج الإيجابية هذا التوجه، وتحفّزنا على معالجة مشكلة التعميم من منظور جديد، ألا وهو تجميع النماذج المُدرّبة مسبقًا VLMs. نقدّم ثلاث استراتيجيات مخصصة لتجميع النماذج، كل منها مصمم خصيصًا لسياق معين. أولاً، نقدّم استراتيجية التجميع الصفرية (zero-shot ensemble)، التي تُعدّل تلقائيًا قيم(logits) النماذج المختلفة بناءً على درجة ثقتها، عند توفر فقط نماذج VLMs المُدرّبة مسبقًا. ثانياً، في السياقات التي تتوفر فيها عينات قليلة إضافية (few-shot)، نقترح استراتيجية التجميع دون تدريب أو تعديل (training-free and tuning ensemble)، التي تُقدّم مرونة بناءً على توفر الموارد الحاسوبية. تم تقييم الاستراتيجيات المُقترحة في مهام التعميم الصفرية، والتعميم من الأساس إلى الجديد (base-to-new)، والتعميم عبر المجموعات البيانات، حيث حققت نتائج جديدة متفوقة على أحدث النماذج المُحققة (state-of-the-art). وبشكل ملحوظ، تمثل هذه الدراسة خطوة أولية نحو تحسين أداء التعميم للنماذج VLMs من خلال التجميع. يُمكن الاطلاع على الشيفرة المصدرية على الرابط التالي: https://github.com/zhiheLu/Ensemble_VLM.git.