MMICL: تعزيز نموذج الرؤية واللغة من خلال التعلم متعدد الوسائط في السياق

منذ انتعاش التعلم العميق، شهدت نماذج الرؤية واللغة (VLMs) المُعززة بمقاييس اللغة الكبيرة (LLMs) نموًا هائلاً في الشعبية. ومع ذلك، وعلى الرغم من قدرة نماذج اللغة الكبيرة على استغلال معرفة خلفية واسعة ومعلومات المهمة من خلال التعلم السياقي (in-context learning)، ما زالت معظم نماذج الرؤية واللغة تواجه صعوبات في فهم التعليمات متعددة الوسائط المعقدة التي تتضمن صورًا متعددة، مما يجعلها أقل فعالية في المهام اللاحقة المتعلقة بالرؤية واللغة. في هذه الورقة، نعالج هذه القيود من خلال: 1) تقديم نموذج رؤية-لغة يُعرف بـ "التعلم السياقي متعدد الوسائط" (MMICL)، وهو نهج جديد يمكّن النموذج من التعامل بكفاءة مع المدخلات متعددة الوسائط؛ 2) اقتراح.scheme جديد للسياق يُعزز قدرة النموذج على التعلم السياقي؛ 3) إنشاء مجموعة بيانات مُخصصة تُسمى "التعلم السياقي متعدد الوسائط" (MIC)، صُممت لتعزيز قدرة نماذج الرؤية واللغة على فهم التعليمات متعددة الوسائط المعقدة. تؤكد تجاربنا أن MMICL تحقق أداءً جديدًا على مستوى الحد الأقصى (state-of-the-art) في المهام العامة للرؤية واللغة دون تدريب مسبق (zero-shot)، وخاصة في المعايير المعقدة مثل MME وMMBench. كما تُظهر التحليلات أن MMICL تتعامل بشكل فعّال مع تحدي فهم التعليمات متعددة الوسائط المعقدة، وتنمو قدرتها البارزة على التعلم السياقي. علاوةً على ذلك، لاحظنا أن MMICL تُخفّف بنجاح من التحيّز اللغوي في نماذج الرؤية واللغة، وهي مشكلة شائعة تؤدي غالبًا إلى تضليل (hallucination) عند مواجهة سياقات نصية واسعة. يمكن الوصول إلى الكود، والبيانات، وأدوات مجموعة البيانات، والنماذج عبر الرابط التالي: https://github.com/PKUnlp-icler/MIC