HyperAIHyperAI

Command Palette

Search for a command to run...

تقرير فني سكايورك-ر1ف3

Wei Shen Jiangbo Pei Yi Peng Xuchen Song Yang Liu Jian Peng Haofeng Sun Yunzhuo Hao Peiyu Wang Yahui Zhou

الملخص

نقدم Skywork-R1V3، وهو نموذج متقدم ومفتوح المصدر للرؤية واللغة (VLM) يفتتح منهجًا جديدًا في الاستدلال البصري. تكمن إبداعيته الرئيسية في نقل مهارات الاستدلال بفعالية من النماذج اللغوية الكبيرة التي تعتمد على النص فقط (LLMs) إلى المهام البصرية. الأداء القوي لـ Skywork-R1V3 يعود بشكل أساسي إلى إطار التعلم التعزيزي (RL) ما بعد التدريب الذي صممناه بدقة، والذي ينشط ويعزز قدرات الاستدلال للنموذج دون الحاجة إلى مزيد من التدريب الأولي المستمر. من خلال هذا الإطار، كشفنا أيضًا عن الدور الأساسي لوحدة الربط في تحقيق التناسق المتين بين الأوضاع المختلفة للنماذج الاستدلاليّة متعددة الوسائط. بالإضافة إلى ذلك، نقدم مؤشرًا فريدًا لقدرة الاستدلال، وهو انتروبيا الرموز الحرجة للاستدلال (entropy of critical reasoning tokens)، والتي أثبتت فعاليتها العالية في اختيار نقاط التحقق أثناء تدريب التعلم التعزيزي. حقق Skywork-R1V3 أفضل النتائج الحالية على MMMU، حيث تحسنت النسبة من 64.3% إلى 76.0%. هذه الأداء يتناسب مع قدرات البشر المبتدئين. بشكل ملحوظ، يتيح لنا نهج التعلم التعزيزي ما بعد التدريب تنافس حتى النموذج ذو الـ 38 مليار معلمة مع أفضل النماذج المغلقة المصدر من نوع VLM. تم تنفيذ هذا النهج بنجاح في نقل الاستدلال الرياضي إلى مهام استدلال ذات صلة بموضوعات أخرى. كما نتضمن تحليلًا لاستراتيجيات التعلم المنهاجي والتحسين التعزيزي، بالإضافة إلى نقاش أوسع حول الاستدلال متعدد الوسائط. يعتبر Skywork-R1V3 خطوة كبيرة للأمام في مجال الاستدلال متعدد الوسائط، مما يظهر التعلم التعزيزي كمحرك قوي لتطوير قدرات النماذج المفتوحة المصدر من نوع VLM.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp