مُعَالِجُ الرُّؤْيَةِ المَفْتُوح: نَقْلُ السُّلُوكِ الإدراكيِّ اللُّغَوِيِّ لِلتَّعْقِيلِ البَصَرِيِّ

قدرة النماذج اللغوية الكبيرة (LLMs) على الاستدلال المدهش تأتي من السلوكيات الإدراكية التي تظهر من خلال التعزيز بالمكافآت القابلة للتحقق. يتناول هذا البحث كيفية نقل هذه المبدأ إلى النماذج اللغوية المتعددة الأوضاع (MLLMs) لفتح الباب أمام الاستدلال البصري المتقدم. نقدم نموذجًا ذا مرحلتين مبنيًا على Qwen2.5-VL-7B: تعديل دقيق ضخم يبدأ ببرودة لغوية، يتبعه تعزيز متعدد الأوضاع بالتعلم (RL) يمتد لأكثر من 1,000 خطوة، مما يتجاوز جميع الجهود السابقة المفتوحة المصدر من حيث الحجم. كشف هذا العمل الرائد ثلاثة رؤى أساسية: 1) يظهر نقل السلوك بشكل مفاجئ في بداية البرودة بسبب الصور العقلية اللغوية. 2) تتذكر بداية البرودة السلوكيات البصرية بشكل عام، بينما يقوم التعلم بالتعزيز (RL) بتقييم الأنماط الفعالة وتوسيع نطاقها بشكل حاسم. 3) يعمل النقل استراتيجيًا على تفضيل السلوكيات ذات المنفعة العالية مثل الانعكاس البصري. حقق نموذجنا الناتج، Open-Vision-Reasoner (OVR)، أداءً عالي المستوى في مجموعة من مقاييس الاستدلال، بما في ذلك نسبة 95.3% في MATH500، ونسبة 51.8% في MathVision، ونسبة 54.6% في MathVerse. نقوم بإطلاق نموذجنا والبيانات والديناميكيات التدريبية لتحفيز تطوير نماذج متعددة الأوضاع أكثر قدرة ومحاذاة مع السلوك.