HyperAIHyperAI

Command Palette

Search for a command to run...

YoCausal: Wie weit ist Videogenerierung vom Weltmodell entfernt? Eine Kausalitätsperspektive

You-Zhe Xie Yu-Hsuan Li Jie-Ying Lee Kaipeng Zhang Yu-Lun Liu Zhixiang Wang

Zusammenfassung

Da sich Videodiffusionsmodelle (VDMs) hin zu Weltmodellen entwickeln, stellt sich eine zentrale Frage: Verstehen sie Kausalität tatsächlich, oder overfitten sie lediglich auf statistische zeitliche Muster? Bestehende Benchmarks stützen sich größtenteils auf synthetische Daten, was die Generalisierungsfähigkeit in realen Szenarien aufgrund der Sim-to-Real-Lücke einschränkt. Wir präsentieren YoCausal, einen zweistufigen Benchmark, der vom Violation-of-Expectation-(VoE)-Paradigma der Kognitionswissenschaft inspiriert ist. Durch das zeitliche Umkehren realer Videos zu natürlichen kontrafaktischen Beispielen ohne zusätzliche Kosten etabliert YoCausal ein beliebig erweiterbares Evaluierungsprotokoll. Ebene 1 führt den Reverse Surprise Index (RSI) ein, der die Wahrnehmung der Zeitpfeilrichtung über den Denoising-Loss quantifiziert. Ebene 2 führt den Causality Cognition Index (CCI) ein, der eine VLM nutzt, um Datensätze in kausale und nicht-kausale Teilmengen zu stratifizieren und echtes kausales Reasoning von temporalen Verzerrungen zu trennen. Die Evaluierung von 13 state-of-the-art VDMs zeigt, dass die Wahrnehmung des Zeitpfeils nicht zwangsläufig ein Verständnis von Kausalität impliziert, und es besteht weiterhin eine signifikante Lücke im Vergleich zum kausalen Kognitionsniveau des Menschen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp