التعلم التعزيزي نصف غير المعايير للاستدلال البطيء المرتبط بالرؤية واللغة

تحسين نماذج الرؤية واللغة الضخمة (LVLMs) من خلال التفكير البطيء البصري يُعد أمرًا ضروريًا لحل المهام متعددة الوسائط المعقدة. ومع ذلك، نظرًا لأن نماذج LVLMs تُدرب بشكل رئيسي على التوافق بين الرؤية واللغة، فمن الصعب تبني التعلم بالتعزيز (RL) القائم على السياسة الحالية (on-policy) لتطوير قدرة التفكير البطيء، لأن مساحة تجربة التنفيذ (rollout space) محدودة بقدراتها الأصلية. أما التعلم بالتعزيز القائم على السياسة غير الحالية (off-policy RL)، فهو يُقدّم طريقة للخروج من السياسة الحالية، إلا أن استخلاص مسارات من نماذج خارجية بشكل مباشر قد يؤدي إلى تصورات بصرية خاطئة (visual hallucinations) بسبب الاختلاف في قدرات التصور البصري بين النماذج. لحل هذه المشكلات، تقدم هذه الورقة نموذج SOPHIA، وهو تعلم بالتعزيز (RL) نصف غير حالي (Semi-Off-Policy) بسيط وقابل للتوسع، يهدف إلى تحسين التفكير البطيء في المهام متعددة الوسائط التي تعتمد على الرؤية واللغة. يبني SOPHIA نموذجًا سلوكًا نصف غير حالي من خلال دمج الفهم البصري القائم على السياسة الحالية من نموذج LVLM قابل للتدريب مع التفكير البطيء من نموذج لغوي غير حالي، ويُخصّص مكافآت تعتمد على النتائج للتفكير، ويُعيد توزيع مكافآت الرؤية للخلف. ثم يتعلم نموذج LVLM قدرة التفكير البطيء من خلال المسارات المُستخلصة باستخدام خوارزميات التعلم بالتعزيز غير الحالية. أظهرت تجارب واسعة مع نماذج InternVL2.5 وInternVL3.0 ذات الحجم 8B و38B فعالية SOPHIA. ومن المهم ملاحظة أن SOPHIA يحسن أداء InternVL3.0-38B بنسبة 8.50% في المتوسط، مما يُحقق أداءً متميزًا بين النماذج المفتوحة المصدر في مجال LVLMs على عدة معايير للاستدلال متعدد الوسائط، ويتفوق حتى على بعض النماذج المغلقة (مثل GPT-4.1) على المعايير الصعبة مثل MathVision وOlympiadBench، حيث بلغت دقة التحقق (pass@1) 49.08% و49.95% على التوالي. وتُظهر التحليلات أن SOPHIA يتفوق على طرق التحسين المُراقبة (supervised fine-tuning) وطريقة التعلم بالتعزيز القائم على السياسة الحالية مباشرة (direct on-policy RL)، ويوفر تهيئة سياسة أفضل لتدريبات السياسة الحالية اللاحقة.