Command Palette
Search for a command to run...
فيديو Open-o3: الاستدلال على الفيديو القائم على أساس الأدلة المكانية الزمنية الصريحة

الملخص
تُنتج معظم نماذج الاستدلال المرئي فقط سلسلة نصية للتفكير دون تحديد متى وحيث تظهر الأدلة الأساسية. وقد أثارت النماذج الحديثة مثل OpenAI-o3 اهتمامًا واسعًا بالاستدلال المتمحور حول الأدلة في الصور، لكن توسيع هذه القدرة إلى الفيديوهات يُعد أكثر تعقيدًا، إذ يتطلب تتبعًا زمنيًا متكاملًا وتحديدًا مكانيًا عبر المشاهد الديناميكية. نقدم نموذج Open-o3 Video، وهو إطار عمل غير وكيل (non-agent) يُدمج الأدلة المكانية-الزمنية الصريحة في الاستدلال المرئي، ونقوم بجمع بيانات تدريب دقيقة وتصميم استراتيجيات تدريب مُحكمة لمعالجة التحديات المذكورة أعلاه. يُبرز النموذج اللحظات الزمنية المهمة، والكائنات، والمستطيلات المحيطة (bounding boxes) جنبًا إلى جنب مع إجاباته، مما يُمكّن الاستدلال من الارتكاز على ملاحظات بصرية ملموسة. ولتمكين هذه الوظيفة، نقوم أولًا بتهيئة وبناء مجموعتي بيانات عاليتي الجودة: STGR-CoT-30k لتدريب التكييف التدريجي (SFT)، وSTGR-RL-36k لتدريب التعلم بالتعزيز (RL)، مع تضمين تسميات زمنية ومكانية مُصممة بعناية، إذ تُقدّم معظم مجموعات البيانات الحالية إما فترات زمنية للفيديوهات أو مربعات مكانية للصور، لكنها تفتقر إلى رقابة موحدة على الأدلة المكانية-الزمنية وسلسلة استدلال متكاملة. ثم نطبّق استراتيجية تعلم بالتعزيز الباردة (cold-start reinforcement learning) مع مكافآت متعددة مصممة خصيصًا، تُشجع بشكل متكامل على دقة الإجابة، والمواءمة الزمنية، والدقة المكانية. وعلى معيار V-STAR، حقق Open-o3 Video أداءً يُصنف ضمن الأفضل عالميًا، حيث ارتفع مؤشر mAM بنسبة 14.4% ومؤشر mLGM بنسبة 24.2% مقارنةً بالأساس Qwen2.5-VL. كما لوحظت تحسينات متسقة على مجموعة واسعة من معايير فهم الفيديو، بما في ذلك VideoMME، WorldSense، VideoMMMU، وTVGBench. وبالإضافة إلى الدقة، توفر سلاسل الاستدلال التي يُنتجها Open-o3 Video إشارات قيمة للتوسع أثناء الاختبار (test-time scaling)، مما يُمكّن من التحقق المُدرك للثقة وتحسين موثوقية الإجابات.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.