Command Palette
Search for a command to run...

الملخص
الطرق الحديثة في التعلم التعزيزي، مثل GRPO المشرف عليها بالنتائج، قد تقدمت في مجال الاستدلال السلس (Chain-of-Thought reasoning) في نماذج اللغات الكبيرة (LLMs)، ومع ذلك لم يتم استكشاف تكييفها لنماذج اللغات متعددة الوسائط الكبيرة (MLLMs). لمعالجة نقص التقييم الدقيق للطرق ما بعد التدريب لنماذج MLLM، نقدم SEED-Bench-R1، وهو معيار يحتوي على مقاطع فيديو معقدة من العالم الحقيقي تتطلب توازنًا بين الإدراك والاستدلال. يوفر هذا المعيار مجموعة تدريب كبيرة ويقيم التعميم عبر ثلاثة تحديات تصاعدية: سيناريوهات داخل التوزيع، وعبر البيئات، وعبر مهام البيئات.باستخدام SEED-Bench-R1، اكتشفنا أن GRPO القياسية، رغم تحسينها لدقة الإجابات، غالبًا ما تقلل من التجانس المنطقي بين خطوات الاستدلال والإجابات، بمعدل ثبات يبلغ 57.9٪ فقط. هذا ينبع من إشارات المكافآت التي تركز فقط على الإجابات النهائية، مما يشجع على استخدام الطرق القصيرة والغرامات الصارمة KL التي تقيد الاستكشاف. لمعالجة هذه المشكلة، نقترح GRPO-CARE، وهو إطار تعليمي تعزيزي يراعي التجانس ويحسن كلًا من صحة الإجابات وتجانس الاستدلال دون إشراف صريح. يدخل GRPO-CARE نظام مكافأة ذو مستويين: (1) مكافأة أساسية لصحة الإجابات، و(2) مكافأة توافقية متكيفة يتم حسابها بمقارنة احتمالية استدلال النموذج إلى الإجابة (من خلال نموذج مرجعي يتغير ببطء) مع أقران المجموعة.هذا الآلية الثنائية تعزز المكافآت للمسارات الاستدلاليّة التي تكون صحيحة ومنطقية بشكل متوازن. عند استبدال غرامات KL بهذه المكافأة المتكيفة، فإن GRPO-CARE يتفوق على GRPO القياسية في SEED-Bench-R1، حيث حقق زيادة في الأداء بنسبة 6.7٪ على مستوى التقييم الأكثر صعوبة وتحسينًا بنسبة 24.5٪ في التجانس. كما أظهر قابلية نقل قوية، مما أدى إلى تحسين أداء النموذج عبر مجموعة متنوعة من مقاييس فهم الفيديو.عملنا يساهم بتقديم معيار تم تصميمه بطريقة منهجية وإطار ما بعد التدريب قابل للتعميم، مما يعزز تطوير MLLMs أكثر قابلية للتفسير ومتانة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.