HyperAIHyperAI

Command Palette

Search for a command to run...

vor 7 Tagen

TiViBench: Benchmarking Think-in-Video Reasoning für Video-Generative Models

TiViBench: Benchmarking Think-in-Video Reasoning für Video-Generative Models

Abstract

Die rasante Entwicklung von Video-Generativmodellen hat ihren Fokus von der Erzeugung visuell plausibler Ausgaben hin zu Aufgaben verschoben, die physikalische Plausibilität und logische Konsistenz erfordern. Dennoch bleibt unklar, ob diese Modelle Fähigkeiten zur Schlussfolgerung aufweisen, die denen großer Sprachmodelle (Large Language Models, LLMs) ähneln. Bestehende Benchmarks bewerten vorwiegend die visuelle Fidelität und die zeitliche Kohärenz, erfassen jedoch nicht die höherstufigen Schlussfolgerungsfähigkeiten. Um diese Lücke zu schließen, stellen wir TiViBench vor – einen hierarchischen Benchmark, der speziell darauf ausgelegt ist, die Schlussfolgerungsfähigkeiten von Bild-zu-Video-(I2V)-Generationsmodellen zu evaluieren. TiViBench bewertet systematisch die Schlussfolgerungsfähigkeiten in vier Dimensionen: i) strukturelle Schlussfolgerung und Suche, ii) räumliche und visuelle Mustererkennung, iii) symbolische und logische Schlussfolgerung sowie iv) Handlungsplanung und Aufgabenausführung, wobei 24 unterschiedliche Aufgabenszenarien auf drei Schwierigkeitsstufen abgedeckt werden. Durch umfangreiche Evaluierungen zeigen wir, dass kommerzielle Modelle (z. B. Sora 2, Veo 3.1) ein stärkeres Schlussfolgerungspotenzial aufweisen, während offene Quellcode-Modelle ein ungenutztes Potenzial besitzen, das derzeit durch begrenzte Trainingsgröße und geringe Datenvielfalt eingeschränkt ist. Um dieses Potenzial weiter zu entfalten, führen wir VideoTPO ein – eine einfache, aber effektive Strategie zur Testzeit, die von der Präferenzoptimierung inspiriert ist. Durch eine Selbstanalyse der generierten Kandidaten mittels LLMs zur Identifizierung von Stärken und Schwächen wird die Schlussfolgerungsfähigkeit signifikant verbessert, ohne dass zusätzlicher Trainingsaufwand, Daten oder Belohnungsmodelle erforderlich sind. Gemeinsam legen TiViBench und VideoTPO den Grundstein für die Bewertung und Weiterentwicklung der Schlussfolgerungsfähigkeiten in Video-Generationsmodellen und bilden eine zentrale Basis für zukünftige Forschung in diesem aufstrebenden Feld.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
TiViBench: Benchmarking Think-in-Video Reasoning für Video-Generative Models | Forschungsarbeiten | HyperAI