V-ReasonBench: نحو مجموعة معايير موحدة لتقييم الاستدلال النموذجية لتنبؤ الفيديو
Yang Luo Xuanlei Zhao Baijiong Lin Lingting Zhu Liyao Tang Yuqi Liu Ying-Cong Chen Shengju Qian Xin Wang Yang You

الملخص
أظهر التقدم الأخير في نماذج الفيديو التوليدية، مثل Veo-3، قدرات مفاجئة في التفكير الصفرية (zero-shot reasoning)، مما أدى إلى تزايد الحاجة إلى تقييم منهجي وموثوق. نقدّم V-ReasonBench، وهو معيار مصمم لتقييم التفكير في الفيديو عبر أربعة أبعاد رئيسية: حل المشكلات المُنظَّمة، والتميّز المكاني، والاستدلال القائم على الأنماط، والديناميات الفيزيائية. يُبنى هذا المعيار على تسلسلات صور مُصَنَّعة وواقعية، ويوفر مجموعة متنوعة من المهام القابلة للتحقق من الإجابات، وتُعدّ قابلة للتكرار والتوسع وواضحة دون غموض. أظهرت تقييمات ستة نماذج رائدة في الفيديو فروقات واضحة من حيث الأبعاد، مع تباين كبير في التفكير المُنظَّم، والتميّز المكاني، والاستدلال القائم على الأنماط، والتفكير الفيزيائي. كما قمنا بمقارنة نماذج الفيديو ذات الأداء العالي مع النماذج القوية في الصور، وتحليل سلوكيات التوليد الخاطئ الشائعة (hallucination)، ودراسة تأثير مدة الفيديو على التفكير المتسلسل عبر الإطارات (Chain-of-Frames reasoning). بشكل عام، يوفر V-ReasonBench إطارًا موحّدًا وقابلًا للتكرار لقياس التفكير في الفيديو، ويهدف إلى دعم تطوير نماذج تمتلك مهارات تفكير أكثر موثوقية ومتماشية مع التفكير البشري.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.