تقليل التحيّز في النماذج الكبيرة متعددة الوسائط من خلال التكييف التعليمي الصلب

رغم التقدم الواعد في المهام متعددة الوسائط، فإن النماذج الكبيرة الحالية متعددة الوسائط (LMMs) عرضة لظهور تضليلات (Hallucinations) تتمثل في وصف غير متسق مع الصورة المرتبطة بها أو مع التعليمات البشرية. يعالج هذا البحث هذه المشكلة من خلال تقديم أول مجموعة بيانات ضخمة ومتنوعة للتعليم البصري، تُسمى Large-scale Robust Visual (LRV)-Instruction. تتضمن هذه المجموعة 400 ألف تعليم بصري تم إنشاؤها بواسطة GPT4، وتغطي 16 مهمة في مجال الرؤية واللغة، مع تعليمات وإجابات مفتوحة النهاية. على عكس الدراسات الحالية التي تركز بشكل رئيسي على أمثلة تعليم إيجابية، قمنا بتصميم LRV-Instruction لتشمل كلًا من التعليمات الإيجابية والسلبية، بهدف تعزيز مرونة التدريب على التعليم البصري. تم تصميم التعليمات السلبية على ثلاث مستويات معنوية: (i) تعديل كائن غير موجود، (ii) تعديل كائن موجود، و(iii) تعديل معرفة. ولقياس التضليل الناتج عن النماذج الكبيرة متعددة الوسائط بشكل فعّال، نقترح GPT4-Assisted Visual Instruction Evaluation (GAVIE)، وهي طريقة مستقرة لتقييم التدريب على التعليم البصري بأسلوب يشبه خبراء البشر. ولا تتطلب GAVIE إجابات مُعلّمة يدويًا كمراجع حقيقية (groundtruth)، ويمكنها التكيف مع تنسيقات متنوعة للتعليمات. أجرينا تجارب شاملة لاستكشاف ظاهرة التضليل في النماذج الكبيرة متعددة الوسائط. أظهرت النتائج أن النماذج الحالية تُظهر تضليلات كبيرة عند مواجهتها بتعليمات سلبية من مجموعتنا، وخاصةً التعليمات المتعلقة بتعديل الكائنات الموجودة وتعديل المعرفة. علاوةً على ذلك، نجحنا في تقليل التضليل من خلال تدريب نماذج MiniGPT4 وmPLUG-Owl على LRV-Instruction، مع تحسين أدائها على عدة مجموعات بيانات عامة مقارنةً بالطرق الرائدة حالياً. كما لاحظنا أن نسبة متوازنة بين الأمثلة الإيجابية والسلبية في بيانات التدريب تؤدي إلى نموذج أكثر مرونة. يمكن الوصول إلى الكود والبيانات عبر الرابط التالي: https://github.com/FuxiaoLiu/LRV-Instruction.