الملخص

قدرة النماذج اللغوية الكبيرة (LLMs) على الاستدلال المدهش تأتي من السلوكيات الإدراكية التي تظهر من خلال التعزيز بالمكافآت القابلة للتحقق. يتناول هذا البحث كيفية نقل هذه المبدأ إلى النماذج اللغوية المتعددة الأوضاع (MLLMs) لفتح الباب أمام الاستدلال البصري المتقدم. نقدم نموذجًا ذا مرحلتين مبنيًا على Qwen2.5-VL-7B: تعديل دقيق ضخم يبدأ ببرودة لغوية، يتبعه تعزيز متعدد الأوضاع بالتعلم (RL) يمتد لأكثر من 1,000 خطوة، مما يتجاوز جميع الجهود السابقة المفتوحة المصدر من حيث الحجم. كشف هذا العمل الرائد ثلاثة رؤى أساسية: 1) يظهر نقل السلوك بشكل مفاجئ في بداية البرودة بسبب الصور العقلية اللغوية. 2) تتذكر بداية البرودة السلوكيات البصرية بشكل عام، بينما يقوم التعلم بالتعزيز (RL) بتقييم الأنماط الفعالة وتوسيع نطاقها بشكل حاسم. 3) يعمل النقل استراتيجيًا على تفضيل السلوكيات ذات المنفعة العالية مثل الانعكاس البصري. حقق نموذجنا الناتج، Open-Vision-Reasoner (OVR)، أداءً عالي المستوى في مجموعة من مقاييس الاستدلال، بما في ذلك نسبة 95.3% في MATH500، ونسبة 51.8% في MathVision، ونسبة 54.6% في MathVerse. نقوم بإطلاق نموذجنا والبيانات والديناميكيات التدريبية لتحفيز تطوير نماذج متعددة الأوضاع أكثر قدرة ومحاذاة مع السلوك.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

مُعَالِجُ الرُّؤْيَةِ المَفْتُوح: نَقْلُ السُّلُوكِ الإدراكيِّ اللُّغَوِيِّ لِلتَّعْقِيلِ البَصَرِيِّ

Yana Wei Liang Zhao Jianjian Sun Kangheng Lin Jisheng Yin Jingcheng Hu Yinmin Zhang En Yu Haoran Lv Zejia Weng8 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مُعَالِجُ الرُّؤْيَةِ المَفْتُوح: نَقْلُ السُّلُوكِ الإدراكيِّ اللُّغَوِيِّ لِلتَّعْقِيلِ البَصَرِيِّ

Yana Wei Liang Zhao Jianjian Sun Kangheng Lin Jisheng Yin Jingcheng Hu Yinmin Zhang En Yu Haoran Lv Zejia Weng8 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مُعَالِجُ الرُّؤْيَةِ المَفْتُوح: نَقْلُ السُّلُوكِ الإدراكيِّ اللُّغَوِيِّ لِلتَّعْقِيلِ البَصَرِيِّ

Yana Wei Liang Zhao Jianjian Sun Kangheng Lin Jisheng Yin Jingcheng Hu Yinmin Zhang En Yu Haoran Lv Zejia Weng8 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yana Wei Liang Zhao Jianjian Sun Kangheng Lin Jisheng Yin Jingcheng Hu Yinmin Zhang En Yu Haoran Lv Zejia Weng

Yana Wei Liang Zhao Jianjian Sun Kangheng Lin Jisheng Yin Jingcheng Hu Yinmin Zhang En Yu Haoran Lv Zejia Weng

Yana Wei Liang Zhao Jianjian Sun Kangheng Lin Jisheng Yin Jingcheng Hu Yinmin Zhang En Yu Haoran Lv Zejia Weng