V-ReasonBench: Ein Schritt hin zu einer einheitlichen Reasoning-Benchmark-Suite für Video-Generierungs-Modelle
Yang Luo Xuanlei Zhao Baijiong Lin Lingting Zhu Liyao Tang Yuqi Liu Ying-Cong Chen Shengju Qian Xin Wang Yang You

Abstract
Neueste Fortschritte bei generativen Videomodellen, wie beispielsweise Veo-3, haben überraschende Zero-shot-Reasoning-Fähigkeiten aufgezeigt und damit einen wachsenden Bedarf an systematischer und zuverlässiger Bewertung geschaffen. Wir stellen V-ReasonBench vor, einen Benchmark, der entwickelt wurde, um das Video-Reasoning anhand vier zentraler Dimensionen zu bewerten: strukturiertes Problemlösen, räumliches Verständnis, musterbasierte Inferenz sowie physikalische Dynamik. Der Benchmark basiert sowohl auf synthetischen als auch auf realen Bildfolgen und bietet eine vielfältige Auswahl an überprüfbar beantwortbaren Aufgaben, die reproduzierbar, skalierbar und eindeutig sind. Die Bewertung von sechs state-of-the-art-Videomodellen offenbart klare Unterschiede zwischen den einzelnen Dimensionen, wobei erhebliche Variationen im Bereich strukturierten, räumlichen, musterbasierten und physikalischen Reasonings festzustellen sind. Darüber hinaus vergleichen wir Videomodelle mit leistungsstarken Bildmodellen, analysieren verbreitete Halluzinationsverhaltensweisen und untersuchen, wie die Videolänge die Chain-of-Frames-Reasoning beeinflusst. Insgesamt bietet V-ReasonBench einen einheitlichen und reproduzierbaren Rahmen zur Messung von Video-Reasoning und soll die Entwicklung von Modellen mit zuverlässigeren, menschenorientierten Reasoning-Fähigkeiten unterstützen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.