RLHF-V: نحو مُحاكاة مُوثوقة للـ MLLMs من خلال مواءمة السلوك المستمدة من التغذية الراجعة البشرية التصحيحية الدقيقة

أظهرت النماذج الكبيرة متعددة الوسائط للغة (MLLMs) مؤخرًا قدرات مذهلة في الفهم المتعدد الوسائط، والاستدلال، والتفاعل. ومع ذلك، تعاني النماذج الحالية من مشكلة خطيرة تتعلق بالهلوسة، حيث تُولِّد نصوصًا غير مدعومة بالحقائق في الصور المرتبطة بها. تُعد هذه المشكلة سببًا في عدم ثقة المستخدمين بهذه النماذج، مما يجعلها غير عملية في التطبيقات الواقعية، خصوصًا تلك ذات الأبعاد الحاسمة. لمعالجة هذا التحدي، نقدّم نموذج RLHF-V، الذي يعزز موثوقية MLLMs من خلال محاذاة السلوك المستمدة من ملاحظات بشرية دقيقة تُصَرِّح على التصحيحات. بتفصيل، يقوم RLHF-V بجمع تفضيلات بشرية على شكل تصحيحات على مستوى المقاطع المتعلقة بالهلوسة، ثم يُطبِّق خوارزمية تحسين تفضيل مباشر كثيف (Dense Direct Preference Optimization) على هذه الملاحظات البشرية. أظهرت التجارب الشاملة على خمسة معايير، سواء في التقييم التلقائي أو البشري، أن RLHF-V يمكنه تمكين سلوكيات MLLM أكثر موثوقية، مع كفاءة ممتازة من حيث البيانات والحسابات. بشكل ملحوظ، باستخدام 1.4 ألف عينة مُعلَّمة، تمكّن RLHF-V من خفض معدل الهلوسة في النموذج الأساسي بنسبة 34.8%، متفوّقًا على نموذج LLaVA-RLHF الذي تم تدريبه على 10 آلاف عينة مُعلَّمة. وحقق النموذج النهائي أداءً رائدًا في مجال الموثوقية بين النماذج المفتوحة المصدر لـ MLLMs، كما أظهر مقاومة أفضل من GPT-4V في منع الهلوسة الناتجة عن التعميم المفرط. نحن نُشغّل المصدر المفتوح للكود، والنموذج، والبيانات عبر الرابط: https://github.com/RLHF-V/RLHF-V.