استخدام نماذج الرؤية واللغة لتحسين التعميم النطقي في تصنيف الصور

تم تدريب نماذج الرؤية واللغة (VLMs) مثل CLIP على كميات كبيرة من أزواج الصور والنصوص، مما أدى إلى تعميم ملحوظ عبر عدة توزيعات بيانات. ومع ذلك، في حالات متعددة، لا تُبرر التكاليف الباهظة المرتبطة بالتدريب وجمع البيانات/تجميعها بالنسبة للتطبيق النهائي. هذا يُحفّز على تبني نموذج مزود-عميل، حيث يقوم المزود بتدريب نموذج VLM على نطاق واسع، ويمنح العملاء وصولاً فقط إلى المدخلات والمخرجات على أساس الدفع مقابل كل استعلام في بيئة مغلقة (black-box). ويهدف العميل إلى تقليل تكلفة الاستدلال من خلال استخلاص النموذج الكبير (المعلم) إلى نموذج أصغر (الطالب) باستخدام البيانات المحدودة الخاصة بالمهام، ثم نشر هذا النموذج الصغير في التطبيق النهائي. وعلى الرغم من أن الاستخلاص البسيط يحسن بشكل كبير من دقة النموذج الصغير داخل النطاق (ID)، فإنه يفشل في نقل القدرة المتفوقة على التعميم خارج النطاق (OOD) التي يتمتع بها نموذج المعلم VLM، بالاعتماد على عدد محدود من الصور المُعلَّمة المتاحة. وللتقليل من هذه المشكلة، نقترح نهج Vision-Language to Vision - Align, Distill, Predict (VL2V-ADiP)، الذي يقوم أولاً بمحاذاة الوسائط البصرية واللغوية لنموذج المعلم مع الوسيط البصري لنموذج الطالب المُدرّب مسبقاً، ثم يستخلص التمثيلات المُحاذاة من نموذج VLM إلى نموذج الطالب. ويُحقق هذا النهج الحد الأقصى من الحفاظ على الميزات المُدرّبة مسبقاً في نموذج الطالب، في الوقت الذي يدمج فيه التمثيلات الغنية من معالج الصور في نموذج VLM والقدرة المتفوقة على التعميم في تمثيلات النصوص. ويحقق النهج المقترح نتائج رائدة في المعايير القياسية لتعميم النطاق (Domain Generalization) ضمن بيئة نموذج معلم مغلق (black-box)، وكذلك ضمن بيئة مفتوحة (white-box) حيث تكون أوزان نموذج VLM متاحة للوصول إليها.