HyperAIHyperAI

Command Palette

Search for a command to run...

مُعَالِجُ الرُّؤْيَةِ المَفْتُوح: نَقْلُ السُّلُوكِ الإدراكيِّ اللُّغَوِيِّ لِلتَّعْقِيلِ البَصَرِيِّ

الملخص

قدرة النماذج اللغوية الكبيرة (LLMs) على الاستدلال المدهش تأتي من السلوكيات الإدراكية التي تظهر من خلال التعزيز بالمكافآت القابلة للتحقق. يتناول هذا البحث كيفية نقل هذه المبدأ إلى النماذج اللغوية المتعددة الأوضاع (MLLMs) لفتح الباب أمام الاستدلال البصري المتقدم. نقدم نموذجًا ذا مرحلتين مبنيًا على Qwen2.5-VL-7B: تعديل دقيق ضخم يبدأ ببرودة لغوية، يتبعه تعزيز متعدد الأوضاع بالتعلم (RL) يمتد لأكثر من 1,000 خطوة، مما يتجاوز جميع الجهود السابقة المفتوحة المصدر من حيث الحجم. كشف هذا العمل الرائد ثلاثة رؤى أساسية: 1) يظهر نقل السلوك بشكل مفاجئ في بداية البرودة بسبب الصور العقلية اللغوية. 2) تتذكر بداية البرودة السلوكيات البصرية بشكل عام، بينما يقوم التعلم بالتعزيز (RL) بتقييم الأنماط الفعالة وتوسيع نطاقها بشكل حاسم. 3) يعمل النقل استراتيجيًا على تفضيل السلوكيات ذات المنفعة العالية مثل الانعكاس البصري. حقق نموذجنا الناتج، Open-Vision-Reasoner (OVR)، أداءً عالي المستوى في مجموعة من مقاييس الاستدلال، بما في ذلك نسبة 95.3% في MATH500، ونسبة 51.8% في MathVision، ونسبة 54.6% في MathVerse. نقوم بإطلاق نموذجنا والبيانات والديناميكيات التدريبية لتحفيز تطوير نماذج متعددة الأوضاع أكثر قدرة ومحاذاة مع السلوك.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp