HyperAIHyperAI

Command Palette

Search for a command to run...

V-ReasonBench: نحو مجموعة معايير موحدة لتقييم الاستدلال النموذجية لتنبؤ الفيديو

Yang Luo Xuanlei Zhao Baijiong Lin Lingting Zhu Liyao Tang Yuqi Liu Ying-Cong Chen Shengju Qian Xin Wang Yang You

الملخص

أظهر التقدم الأخير في نماذج الفيديو التوليدية، مثل Veo-3، قدرات مفاجئة في التفكير الصفرية (zero-shot reasoning)، مما أدى إلى تزايد الحاجة إلى تقييم منهجي وموثوق. نقدّم V-ReasonBench، وهو معيار مصمم لتقييم التفكير في الفيديو عبر أربعة أبعاد رئيسية: حل المشكلات المُنظَّمة، والتميّز المكاني، والاستدلال القائم على الأنماط، والديناميات الفيزيائية. يُبنى هذا المعيار على تسلسلات صور مُصَنَّعة وواقعية، ويوفر مجموعة متنوعة من المهام القابلة للتحقق من الإجابات، وتُعدّ قابلة للتكرار والتوسع وواضحة دون غموض. أظهرت تقييمات ستة نماذج رائدة في الفيديو فروقات واضحة من حيث الأبعاد، مع تباين كبير في التفكير المُنظَّم، والتميّز المكاني، والاستدلال القائم على الأنماط، والتفكير الفيزيائي. كما قمنا بمقارنة نماذج الفيديو ذات الأداء العالي مع النماذج القوية في الصور، وتحليل سلوكيات التوليد الخاطئ الشائعة (hallucination)، ودراسة تأثير مدة الفيديو على التفكير المتسلسل عبر الإطارات (Chain-of-Frames reasoning). بشكل عام، يوفر V-ReasonBench إطارًا موحّدًا وقابلًا للتكرار لقياس التفكير في الفيديو، ويهدف إلى دعم تطوير نماذج تمتلك مهارات تفكير أكثر موثوقية ومتماشية مع التفكير البشري.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
V-ReasonBench: نحو مجموعة معايير موحدة لتقييم الاستدلال النموذجية لتنبؤ الفيديو | مستندات | HyperAI