تقرير فني سكايورك-ر1ف3

نقدم Skywork-R1V3، وهو نموذج متقدم ومفتوح المصدر للرؤية واللغة (VLM) يفتتح منهجًا جديدًا في الاستدلال البصري. تكمن إبداعيته الرئيسية في نقل مهارات الاستدلال بفعالية من النماذج اللغوية الكبيرة التي تعتمد على النص فقط (LLMs) إلى المهام البصرية. الأداء القوي لـ Skywork-R1V3 يعود بشكل أساسي إلى إطار التعلم التعزيزي (RL) ما بعد التدريب الذي صممناه بدقة، والذي ينشط ويعزز قدرات الاستدلال للنموذج دون الحاجة إلى مزيد من التدريب الأولي المستمر. من خلال هذا الإطار، كشفنا أيضًا عن الدور الأساسي لوحدة الربط في تحقيق التناسق المتين بين الأوضاع المختلفة للنماذج الاستدلاليّة متعددة الوسائط. بالإضافة إلى ذلك، نقدم مؤشرًا فريدًا لقدرة الاستدلال، وهو انتروبيا الرموز الحرجة للاستدلال (entropy of critical reasoning tokens)، والتي أثبتت فعاليتها العالية في اختيار نقاط التحقق أثناء تدريب التعلم التعزيزي. حقق Skywork-R1V3 أفضل النتائج الحالية على MMMU، حيث تحسنت النسبة من 64.3% إلى 76.0%. هذه الأداء يتناسب مع قدرات البشر المبتدئين. بشكل ملحوظ، يتيح لنا نهج التعلم التعزيزي ما بعد التدريب تنافس حتى النموذج ذو الـ 38 مليار معلمة مع أفضل النماذج المغلقة المصدر من نوع VLM. تم تنفيذ هذا النهج بنجاح في نقل الاستدلال الرياضي إلى مهام استدلال ذات صلة بموضوعات أخرى. كما نتضمن تحليلًا لاستراتيجيات التعلم المنهاجي والتحسين التعزيزي، بالإضافة إلى نقاش أوسع حول الاستدلال متعدد الوسائط. يعتبر Skywork-R1V3 خطوة كبيرة للأمام في مجال الاستدلال متعدد الوسائط، مما يظهر التعلم التعزيزي كمحرك قوي لتطوير قدرات النماذج المفتوحة المصدر من نوع VLM.