HyperAIHyperAI

Command Palette

Search for a command to run...

vor 3 Tagen

V-ReasonBench: Ein Schritt hin zu einer einheitlichen Reasoning-Benchmark-Suite für Video-Generierungs-Modelle

Yang Luo Xuanlei Zhao Baijiong Lin Lingting Zhu Liyao Tang Yuqi Liu Ying-Cong Chen Shengju Qian Xin Wang Yang You

V-ReasonBench: Ein Schritt hin zu einer einheitlichen Reasoning-Benchmark-Suite für Video-Generierungs-Modelle

Abstract

Neueste Fortschritte bei generativen Videomodellen, wie beispielsweise Veo-3, haben überraschende Zero-shot-Reasoning-Fähigkeiten aufgezeigt und damit einen wachsenden Bedarf an systematischer und zuverlässiger Bewertung geschaffen. Wir stellen V-ReasonBench vor, einen Benchmark, der entwickelt wurde, um das Video-Reasoning anhand vier zentraler Dimensionen zu bewerten: strukturiertes Problemlösen, räumliches Verständnis, musterbasierte Inferenz sowie physikalische Dynamik. Der Benchmark basiert sowohl auf synthetischen als auch auf realen Bildfolgen und bietet eine vielfältige Auswahl an überprüfbar beantwortbaren Aufgaben, die reproduzierbar, skalierbar und eindeutig sind. Die Bewertung von sechs state-of-the-art-Videomodellen offenbart klare Unterschiede zwischen den einzelnen Dimensionen, wobei erhebliche Variationen im Bereich strukturierten, räumlichen, musterbasierten und physikalischen Reasonings festzustellen sind. Darüber hinaus vergleichen wir Videomodelle mit leistungsstarken Bildmodellen, analysieren verbreitete Halluzinationsverhaltensweisen und untersuchen, wie die Videolänge die Chain-of-Frames-Reasoning beeinflusst. Insgesamt bietet V-ReasonBench einen einheitlichen und reproduzierbaren Rahmen zur Messung von Video-Reasoning und soll die Entwicklung von Modellen mit zuverlässigeren, menschenorientierten Reasoning-Fähigkeiten unterstützen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
V-ReasonBench: Ein Schritt hin zu einer einheitlichen Reasoning-Benchmark-Suite für Video-Generierungs-Modelle | Forschungsarbeiten | HyperAI