التفكير المكافأة بالمستمع في نماذج اللغة والصورة المرئية للاختيارات الصورية

تدريب نماذج المكافأة المتينة والقابلة للتعميم للاختيارات البصرية البشرية أمر ضروري لتحقيق التوافق بين نماذج توليد الصور من النص ونماذج توليد الفيديو من النص مع نوايا الإنسان. ومع ذلك، غالباً ما تفشل النماذج الحالية للمكافآت في التعميم، ويؤدي التحسين الإشرافي الدقيق إلى الحفظ عن ظهر قلب، مما يتطلب خطوط إنتاج تعليقات معقدة. بينما يحسن التعلم التعزيزي (RL)، وبشكل خاص تحسين السياسة النسبية الجماعية (GRPO)، من عملية التعميم، فقد كشفنا عن وضع فشل رئيسي: يحدث انخفاض كبير في دقة الاستدلال عندما يتعارض مسار استدلال النموذج مع مسار استدلال نموذج لغوي بصري مستقل ومجمد ("مستمع") يقيم نفس الإخراج. لمعالجة هذا الأمر، نقدم إطار عمل GRPO المعزز بالمستمع. هنا يقوم المستمع بإعادة تقييم سلسلة الفكر للمنطق لتوفير درجة ثقة كثيفة ومُحَكَّمة، مما يحدد إشارة المكافأة في RL. هذا يشجع المنطق على الإجابة بشكل صحيح بالإضافة إلى إنتاج شروحات مقنعة لنموذج مستقل. حققت مخطط المكافآت الذي تم تشكيله بواسطة المستمع أفضل دقة على معيار ImageReward (67.4%)، وأظهرت تحسيناً كبيراً في الأداء خارج نطاق البيانات (OOD) على مجموعة بيانات كبيرة للاختيارات البشرية (1.2 مليون تصويت، بزيادة تصل إلى +6% مقارنة بالمنطق الساذج)، وخفضت من تناقضات الاستدلال مقارنة بأسس GRPO وSFT القوية. هذه النتائج تدل على أن المكافآت المستندة إلى المستمع توفر طريقًا قابلًا للتوسع وكفاءة البيانات لتحقيق التوافق بين نماذج الرؤية-اللغة مع الاختيارات البشرية الدقيقة. سنقوم بنشر نموذج الاستدلال الخاص بنا هنا:https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.