Command Palette
Search for a command to run...
V-ReasonBench: نحو مجموعة معايير موحدة لتقييم الاستدلال النموذجية لتنبؤ الفيديو
V-ReasonBench: نحو مجموعة معايير موحدة لتقييم الاستدلال النموذجية لتنبؤ الفيديو
Yang Luo Xuanlei Zhao Baijiong Lin Lingting Zhu Liyao Tang Yuqi Liu Ying-Cong Chen Shengju Qian Xin Wang Yang You
الملخص
أظهر التقدم الأخير في نماذج الفيديو التوليدية، مثل Veo-3، قدرات مفاجئة في التفكير الصفرية (zero-shot reasoning)، مما أدى إلى تزايد الحاجة إلى تقييم منهجي وموثوق. نقدّم V-ReasonBench، وهو معيار مصمم لتقييم التفكير في الفيديو عبر أربعة أبعاد رئيسية: حل المشكلات المُنظَّمة، والتميّز المكاني، والاستدلال القائم على الأنماط، والديناميات الفيزيائية. يُبنى هذا المعيار على تسلسلات صور مُصَنَّعة وواقعية، ويوفر مجموعة متنوعة من المهام القابلة للتحقق من الإجابات، وتُعدّ قابلة للتكرار والتوسع وواضحة دون غموض. أظهرت تقييمات ستة نماذج رائدة في الفيديو فروقات واضحة من حيث الأبعاد، مع تباين كبير في التفكير المُنظَّم، والتميّز المكاني، والاستدلال القائم على الأنماط، والتفكير الفيزيائي. كما قمنا بمقارنة نماذج الفيديو ذات الأداء العالي مع النماذج القوية في الصور، وتحليل سلوكيات التوليد الخاطئ الشائعة (hallucination)، ودراسة تأثير مدة الفيديو على التفكير المتسلسل عبر الإطارات (Chain-of-Frames reasoning). بشكل عام، يوفر V-ReasonBench إطارًا موحّدًا وقابلًا للتكرار لقياس التفكير في الفيديو، ويهدف إلى دعم تطوير نماذج تمتلك مهارات تفكير أكثر موثوقية ومتماشية مع التفكير البشري.