إعادة النظر في دور المُسبقات اللغوية في نماذج الرؤية واللغة

تمثّل نماذج الرؤية واللغة (VLMs) تأثيرًا كبيرًا جزئيًا بسبب قدرتها على تطبيقها على مجموعة متنوعة من مهام الفهم البصري بطريقة صفرية (zero-shot)، دون الحاجة إلى التخصيص (fine-tuning). ندرس نماذج VLMs التوليدية (generative VLMs) التي تُدرّب لتوليد الكلمة التالية بناءً على صورة معطاة. نستكشف أداؤها الصفرية في مهمة توضيحية تتمثل في استرجاع النص الصوتي من الصور عبر 8 معايير شائعة في مجال الرؤية واللغة. أول ملاحظة لدينا هي إمكانية إعادة توجيه هذه النماذج لمهام تمييزية (مثل استرجاع الصور والنصوص) من خلال حساب درجة التوافق لتكوين سلسلة نصية محددة بناءً على صورة معينة. نسمي هذا القياس الاحتمالي بـ "درجة التدريب المسبق التوليدية البصرية" (VisualGPTScore). على الرغم من أن VisualGPTScore تحقق دقة شبه مثالية في بعض معايير الاسترجاع، إلا أنها تُظهر دقة ضعيفة في أخرى. نحلل هذا السلوك من منظور احتمالي، ونشير إلى أن بعض المعايير تُسجّل بشكل غير مقصود توزيعات لغوية غير طبيعية من خلال إنشاء وصفات نصية مُضادة (adversarial) ولكنها غير محتملة. في الواقع، نُظهر أن نموذج لغة "أعمى" (blind) يتجاهل أي دليل بصري يمكنه في بعض الأحيان أن يتفوق على جميع الحلول السابقة، وهو ما يشبه التحديات التي واجهها مجتمع استجابة الأسئلة البصرية (VQA) منذ سنوات عديدة. نستنتج خطة ما بعد معالجة احتمالية تتحكم في مدى التحيّز اللغوي في النماذج التوليدية VLMs أثناء الاختبار، دون الحاجة إلى إعادة تدريبها أو تخصيصها. ونُظهر أن VisualGPTScore، عند إزالة التحيّز بشكل مناسب، يُمثّل قاعدة صفرية قوية لفهم الرؤية واللغة، وغالبًا ما يحقق دقة تُعدّ من أفضل النتائج الممكنة في المجال.