vor 3 Monaten

Harold Haodong Chen Disen Lan Wen-Jie Shu Qingyang Liu Zihan Wang Sirui Chen Wenkai Cheng Kanghao Chen Hongfei Zhang Zixin Zhang

Zusammenfassung

Die rasante Entwicklung von Video-Generativmodellen hat ihren Fokus von der Erzeugung visuell plausibler Ausgaben hin zu Aufgaben verschoben, die physikalische Plausibilität und logische Konsistenz erfordern. Dennoch bleibt unklar, ob diese Modelle Fähigkeiten zur Schlussfolgerung aufweisen, die denen großer Sprachmodelle (Large Language Models, LLMs) ähneln. Bestehende Benchmarks bewerten vorwiegend die visuelle Fidelität und die zeitliche Kohärenz, erfassen jedoch nicht die höherstufigen Schlussfolgerungsfähigkeiten. Um diese Lücke zu schließen, stellen wir TiViBench vor – einen hierarchischen Benchmark, der speziell darauf ausgelegt ist, die Schlussfolgerungsfähigkeiten von Bild-zu-Video-(I2V)-Generationsmodellen zu evaluieren. TiViBench bewertet systematisch die Schlussfolgerungsfähigkeiten in vier Dimensionen: i) strukturelle Schlussfolgerung und Suche, ii) räumliche und visuelle Mustererkennung, iii) symbolische und logische Schlussfolgerung sowie iv) Handlungsplanung und Aufgabenausführung, wobei 24 unterschiedliche Aufgabenszenarien auf drei Schwierigkeitsstufen abgedeckt werden. Durch umfangreiche Evaluierungen zeigen wir, dass kommerzielle Modelle (z. B. Sora 2, Veo 3.1) ein stärkeres Schlussfolgerungspotenzial aufweisen, während offene Quellcode-Modelle ein ungenutztes Potenzial besitzen, das derzeit durch begrenzte Trainingsgröße und geringe Datenvielfalt eingeschränkt ist. Um dieses Potenzial weiter zu entfalten, führen wir VideoTPO ein – eine einfache, aber effektive Strategie zur Testzeit, die von der Präferenzoptimierung inspiriert ist. Durch eine Selbstanalyse der generierten Kandidaten mittels LLMs zur Identifizierung von Stärken und Schwächen wird die Schlussfolgerungsfähigkeit signifikant verbessert, ohne dass zusätzlicher Trainingsaufwand, Daten oder Belohnungsmodelle erforderlich sind. Gemeinsam legen TiViBench und VideoTPO den Grundstein für die Bewertung und Weiterentwicklung der Schlussfolgerungsfähigkeiten in Video-Generationsmodellen und bilden eine zentrale Basis für zukünftige Forschung in diesem aufstrebenden Feld.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 3 Monaten

Harold Haodong Chen Disen Lan Wen-Jie Shu Qingyang Liu Zihan Wang Sirui Chen Wenkai Cheng Kanghao Chen Hongfei Zhang Zixin Zhang

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 3 Monaten

Harold Haodong Chen Disen Lan Wen-Jie Shu Qingyang Liu Zihan Wang Sirui Chen Wenkai Cheng Kanghao Chen Hongfei Zhang Zixin Zhang

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

TiViBench: Benchmarking Think-in-Video Reasoning für Video-Generative Models

Harold Haodong Chen Disen Lan Wen-Jie Shu Qingyang Liu Zihan Wang Sirui Chen Wenkai Cheng Kanghao Chen Hongfei Zhang Zixin Zhang3 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

TiViBench: Benchmarking Think-in-Video Reasoning für Video-Generative Models

Harold Haodong Chen Disen Lan Wen-Jie Shu Qingyang Liu Zihan Wang Sirui Chen Wenkai Cheng Kanghao Chen Hongfei Zhang Zixin Zhang3 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

TiViBench: Benchmarking Think-in-Video Reasoning für Video-Generative Models

Harold Haodong Chen Disen Lan Wen-Jie Shu Qingyang Liu Zihan Wang Sirui Chen Wenkai Cheng Kanghao Chen Hongfei Zhang Zixin Zhang3 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Harold Haodong Chen Disen Lan Wen-Jie Shu Qingyang Liu Zihan Wang Sirui Chen Wenkai Cheng Kanghao Chen Hongfei Zhang Zixin Zhang

Harold Haodong Chen Disen Lan Wen-Jie Shu Qingyang Liu Zihan Wang Sirui Chen Wenkai Cheng Kanghao Chen Hongfei Zhang Zixin Zhang

Harold Haodong Chen Disen Lan Wen-Jie Shu Qingyang Liu Zihan Wang Sirui Chen Wenkai Cheng Kanghao Chen Hongfei Zhang Zixin Zhang