فولكانو: التقليل من التحيّز المتعدّد الوسائط من خلال مراجعة مُوجهة بالعودة الذاتية

تتعرض النماذج الكبيرة متعددة الوسائط إلى ظاهرة "الهلوسة متعددة الوسائط"، حيث تُقدِّم إجابات خاطئة غير متماشية مع المعلومات البصرية المقدمة. افترضت أعمال حديثة أن أحد الأسباب الكامنة وراء هذه الظاهرة يكمن في فشل مشفر الرؤية (vision encoder) في التأصيل الصحيح للصورة. ولتقليل هذه المشكلة، نقترح نهجًا جديدًا يستخدم التغذية الراجعة الذاتية كمؤشرات بصرية. بناءً على هذا النهج، نقدم نموذج "فولكانو" (Volcano)، وهو نموذج مُعدّل يُوجَّه بمساعدة التغذية الراجعة الذاتية لإجراء مراجعة للإجابة. يقوم فولكانو بإنتاج ملاحظات بلغة طبيعية تُستند إلى المعلومات البصرية المقدمة، ثم يستخدم هذه الملاحظات لتقييم وإعادة صياغة إجابته الأولية. وقد أظهر فولكانو تقليلًا فعّالًا في ظاهرة الهلوسة متعددة الوسائط، وحقق أداءً متقدمًا على مجموعات البيانات MMHal-Bench وPOPE وGAVIE. كما ساهم في تحسين المهارات متعددة الوسائط العامة، وتفوّق على النماذج السابقة في مجموعتي MM-Vet وMMBench. ومن خلال التحليل النوعي، نُظهر أن ملاحظات فولكانو تكون أكثر تأصيلًا في الصورة مقارنة بالإجابة الأولية، ما يشير إلى قدرة النموذج على تزويد نفسه بمعلومات بصرية أكثر غنىً من خلال عملية إنتاج التغذية الراجعة، مما يؤدي إلى تصحيح ذاتي للهلوسة. ونُعلن عن إتاحة نموذجنا وبياناتنا وشفرة المصدر بشكل عام عبر الرابط: https://github.com/kaistAI/Volcano