HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 3 أيام

V-ReasonBench: نحو مجموعة معايير موحدة لتقييم الاستدلال النموذجية لتنبؤ الفيديو

Yang Luo Xuanlei Zhao Baijiong Lin Lingting Zhu Liyao Tang Yuqi Liu Ying-Cong Chen Shengju Qian Xin Wang Yang You

V-ReasonBench: نحو مجموعة معايير موحدة لتقييم الاستدلال النموذجية لتنبؤ الفيديو

الملخص

أظهر التقدم الأخير في نماذج الفيديو التوليدية، مثل Veo-3، قدرات مفاجئة في التفكير الصفرية (zero-shot reasoning)، مما أدى إلى تزايد الحاجة إلى تقييم منهجي وموثوق. نقدّم V-ReasonBench، وهو معيار مصمم لتقييم التفكير في الفيديو عبر أربعة أبعاد رئيسية: حل المشكلات المُنظَّمة، والتميّز المكاني، والاستدلال القائم على الأنماط، والديناميات الفيزيائية. يُبنى هذا المعيار على تسلسلات صور مُصَنَّعة وواقعية، ويوفر مجموعة متنوعة من المهام القابلة للتحقق من الإجابات، وتُعدّ قابلة للتكرار والتوسع وواضحة دون غموض. أظهرت تقييمات ستة نماذج رائدة في الفيديو فروقات واضحة من حيث الأبعاد، مع تباين كبير في التفكير المُنظَّم، والتميّز المكاني، والاستدلال القائم على الأنماط، والتفكير الفيزيائي. كما قمنا بمقارنة نماذج الفيديو ذات الأداء العالي مع النماذج القوية في الصور، وتحليل سلوكيات التوليد الخاطئ الشائعة (hallucination)، ودراسة تأثير مدة الفيديو على التفكير المتسلسل عبر الإطارات (Chain-of-Frames reasoning). بشكل عام، يوفر V-ReasonBench إطارًا موحّدًا وقابلًا للتكرار لقياس التفكير في الفيديو، ويهدف إلى دعم تطوير نماذج تمتلك مهارات تفكير أكثر موثوقية ومتماشية مع التفكير البشري.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
V-ReasonBench: نحو مجموعة معايير موحدة لتقييم الاستدلال النموذجية لتنبؤ الفيديو | الأوراق البحثية | HyperAI