TiViBench: Benchmarking Think-in-Video Reasoning für Video-Generative Models

Abstract
Die rasante Entwicklung von Video-Generativmodellen hat ihren Fokus von der Erzeugung visuell plausibler Ausgaben hin zu Aufgaben verschoben, die physikalische Plausibilität und logische Konsistenz erfordern. Dennoch bleibt unklar, ob diese Modelle Fähigkeiten zur Schlussfolgerung aufweisen, die denen großer Sprachmodelle (Large Language Models, LLMs) ähneln. Bestehende Benchmarks bewerten vorwiegend die visuelle Fidelität und die zeitliche Kohärenz, erfassen jedoch nicht die höherstufigen Schlussfolgerungsfähigkeiten. Um diese Lücke zu schließen, stellen wir TiViBench vor – einen hierarchischen Benchmark, der speziell darauf ausgelegt ist, die Schlussfolgerungsfähigkeiten von Bild-zu-Video-(I2V)-Generationsmodellen zu evaluieren. TiViBench bewertet systematisch die Schlussfolgerungsfähigkeiten in vier Dimensionen: i) strukturelle Schlussfolgerung und Suche, ii) räumliche und visuelle Mustererkennung, iii) symbolische und logische Schlussfolgerung sowie iv) Handlungsplanung und Aufgabenausführung, wobei 24 unterschiedliche Aufgabenszenarien auf drei Schwierigkeitsstufen abgedeckt werden. Durch umfangreiche Evaluierungen zeigen wir, dass kommerzielle Modelle (z. B. Sora 2, Veo 3.1) ein stärkeres Schlussfolgerungspotenzial aufweisen, während offene Quellcode-Modelle ein ungenutztes Potenzial besitzen, das derzeit durch begrenzte Trainingsgröße und geringe Datenvielfalt eingeschränkt ist. Um dieses Potenzial weiter zu entfalten, führen wir VideoTPO ein – eine einfache, aber effektive Strategie zur Testzeit, die von der Präferenzoptimierung inspiriert ist. Durch eine Selbstanalyse der generierten Kandidaten mittels LLMs zur Identifizierung von Stärken und Schwächen wird die Schlussfolgerungsfähigkeit signifikant verbessert, ohne dass zusätzlicher Trainingsaufwand, Daten oder Belohnungsmodelle erforderlich sind. Gemeinsam legen TiViBench und VideoTPO den Grundstein für die Bewertung und Weiterentwicklung der Schlussfolgerungsfähigkeiten in Video-Generationsmodellen und bilden eine zentrale Basis für zukünftige Forschung in diesem aufstrebenden Feld.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.