Command Palette
Search for a command to run...
R-4B: تحفيز القدرة التلقائية العامة في النماذج الكبيرة متعددة الوسائط من خلال التبريد الثنائي والتعلم التعزيزي
Jie Jiang Qi Yang Bolin Ni Shiming Xiang Han Hu Houwen Peng

الملخص
أظهرت نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) المزودة بقدرات التفكير خطوة بخطوة أداءً متميزًا في حل المشكلات المعقدة التي تتطلب تفكيرًا متعمقًا. ومع ذلك، فإن هذه العملية الذهنية تكون مُفرطة في الحدّة عند التعامل مع المشكلات البسيطة التي يمكن حلها دون الحاجة إلى تفكير معقد. وللتغلب على هذه عدم الكفاءة، نقترح نموذج R-4B، وهو نموذج MLLM ذاتي التفكير، قادر على اتخاذ قرار تلقائي حول متى ينبغي تفعيل عملية التفكير بناءً على درجة تعقيد المشكلة. وتتمثل الفكرة المركزية لنموذج R-4B في تمكين النموذج من امتلاك كلا القدرتين: التفكير والعدم التفكير، باستخدام تقنية التبريد الثنائي (bi-mode annealing)، مع تطبيق خوارزمية تحسين السياسة الثنائية (Bi-mode Policy Optimization – BPO) لتحسين دقة النموذج في تحديد ما إذا كان ينبغي تفعيل عملية التفكير أم لا. وبشكل محدد، نقوم أولًا بتدريب النموذج على مجموعة بيانات مختارة بعناية تغطي مواضيع متنوعة، وتحتوي على أمثلة من كلا النمطين: التفكير وعدم التفكير. ثم يمر النموذج بمرحلة تدريب ثانية ضمن إطار مُحسّن يُعرف بـ GRPO، حيث يُجبر نموذج السياسة على إنتاج استجابات من كلا النمطين لكل استفسار مدخل. وأظهرت النتائج التجريبية أن نموذج R-4B يحقق أداءً من الدرجة الأولى على 25 معيارًا صعبًا. كما تفوق نموذج Qwen2.5-VL-7B في معظم المهام، وحقق أداءً مماثلًا للنماذج الأكبر مثل Kimi-VL-A3B-Thinking-2506 (16B) في المعايير التي تتطلب تفكيرًا مكثفًا، مع تكلفة حسابية أقل.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.