HyperAIHyperAI

Command Palette

Search for a command to run...

MMICL: تعزيز نموذج الرؤية واللغة من خلال التعلم متعدد الوسائط في السياق

Haozhe Zhao Zefan Cai Shuzheng Si Xiaojian Ma Kaikai An Liang Chen Zixuan Liu Sheng Wang Wenjuan Han Baobao Chang

الملخص

منذ انتعاش التعلم العميق، شهدت نماذج الرؤية واللغة (VLMs) المُعززة بمقاييس اللغة الكبيرة (LLMs) نموًا هائلاً في الشعبية. ومع ذلك، وعلى الرغم من قدرة نماذج اللغة الكبيرة على استغلال معرفة خلفية واسعة ومعلومات المهمة من خلال التعلم السياقي (in-context learning)، ما زالت معظم نماذج الرؤية واللغة تواجه صعوبات في فهم التعليمات متعددة الوسائط المعقدة التي تتضمن صورًا متعددة، مما يجعلها أقل فعالية في المهام اللاحقة المتعلقة بالرؤية واللغة. في هذه الورقة، نعالج هذه القيود من خلال: 1) تقديم نموذج رؤية-لغة يُعرف بـ "التعلم السياقي متعدد الوسائط" (MMICL)، وهو نهج جديد يمكّن النموذج من التعامل بكفاءة مع المدخلات متعددة الوسائط؛ 2) اقتراح.scheme جديد للسياق يُعزز قدرة النموذج على التعلم السياقي؛ 3) إنشاء مجموعة بيانات مُخصصة تُسمى "التعلم السياقي متعدد الوسائط" (MIC)، صُممت لتعزيز قدرة نماذج الرؤية واللغة على فهم التعليمات متعددة الوسائط المعقدة. تؤكد تجاربنا أن MMICL تحقق أداءً جديدًا على مستوى الحد الأقصى (state-of-the-art) في المهام العامة للرؤية واللغة دون تدريب مسبق (zero-shot)، وخاصة في المعايير المعقدة مثل MME وMMBench. كما تُظهر التحليلات أن MMICL تتعامل بشكل فعّال مع تحدي فهم التعليمات متعددة الوسائط المعقدة، وتنمو قدرتها البارزة على التعلم السياقي. علاوةً على ذلك، لاحظنا أن MMICL تُخفّف بنجاح من التحيّز اللغوي في نماذج الرؤية واللغة، وهي مشكلة شائعة تؤدي غالبًا إلى تضليل (hallucination) عند مواجهة سياقات نصية واسعة. يمكن الوصول إلى الكود، والبيانات، وأدوات مجموعة البيانات، والنماذج عبر الرابط التالي: https://github.com/PKUnlp-icler/MIC


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp