توسيع تعلم التعزيز إلى مقاطع الفيديو الطويلة

نقدم إطارًا شاملًا يوسع نطاق الاستدلال في نماذج الرؤية واللغة (VLMs) ليشمل الفيديوهات الطويلة، مستخدمين تعلم التعزيز. نعالج التحديات الفريدة للاستدلال على الفيديوهات الطويلة من خلال دمج ثلاثة مكونات أساسية: (1) قاعدة بيانات كبيرة الحجم تُسمى LongVideo-Reason، تتضمن 52 ألف زوج سؤال وجواب عن فيديوهات طويلة مع شروح استدلال عالية الجودة في مجالات متنوعة مثل الرياضة والألعاب والمدونات المرئية؛ (2) خط أنابيب تدريب بمرحلتين يمتد بنماذج الرؤية واللغة من خلال تعديل الإشراف بالتفكير المتسلسل (CoT-SFT) وتعلم التعزيز (RL)؛ و(3) البنية التحتية للتدريب على الفيديوهات الطويلة باستخدام تعلم التعزيز، والتي تُعرف باسم متعدد الوسائط تعزيز متوازي التتابع (MR-SP)، وتضم تقنية متوازية التتابع ومحركًا يستند إلى vLLM مصمم خصيصًا للفيديوهات الطويلة، باستخدام تمثيلات الفيديو المخزنة لتسريع التنفيذ وإعداد البيانات بشكل فعال.في التجارب، حقق LongVILA-R1-7B أداءً قويًا على مقاييس الأسئلة والأجوبة عن الفيديوهات الطويلة مثل VideoMME. كما تفوق على Video-R1-7B وحتى تساوى مع Gemini-1.5-Pro في الاستدلال الزمني والاستدلال حول الأهداف والأغراض والاستدلال المكاني واستدلال القصة على مقاييسنا الخاصة LongVideo-Reason-eval. ومن الجدير بالذكر أن نظامنا MR-SP حقق سرعة زيادة تصل إلى 2.1 مرة في تدريب تعلم التعزيز للفيديوهات الطويلة. يظهر LongVILA-R1 اكتساب أداء ثابت مع زيادة عدد الإطارات المرئية المدخلة. يعد LongVILA-R1 خطوة مهمة نحو الاستدلال على الفيديوهات الطويلة في نماذج الرؤية واللغة.بالإضافة إلى ذلك، نوفر نظام التدريب الخاص بنا للجمهور بشكل عام، والذي يدعم تعلم التعزيز على مختلف الوسائط (الفيديو والنص والصوت)، وعلى مختلف النماذج (سلسلتي VILA وQwen)، وحتى نماذج إنشاء الصور والفيديوهات. على عقد A100 واحد (8 بطاقات رسوميات)، يدعم النظام تعلم التعزيز على مقاطع فيديو مدتها ساعة كاملة (مثل 3,600 إطار / حوالي 256,000 رمز).