Command Palette
Search for a command to run...
YoCausal: Wie weit ist Videogenerierung vom Weltmodell entfernt? Eine Kausalitätsperspektive
YoCausal: Wie weit ist Videogenerierung vom Weltmodell entfernt? Eine Kausalitätsperspektive
You-Zhe Xie Yu-Hsuan Li Jie-Ying Lee Kaipeng Zhang Yu-Lun Liu Zhixiang Wang
Zusammenfassung
Da sich Videodiffusionsmodelle (VDMs) hin zu Weltmodellen entwickeln, stellt sich eine zentrale Frage: Verstehen sie Kausalität tatsächlich, oder overfitten sie lediglich auf statistische zeitliche Muster? Bestehende Benchmarks stützen sich größtenteils auf synthetische Daten, was die Generalisierungsfähigkeit in realen Szenarien aufgrund der Sim-to-Real-Lücke einschränkt. Wir präsentieren YoCausal, einen zweistufigen Benchmark, der vom Violation-of-Expectation-(VoE)-Paradigma der Kognitionswissenschaft inspiriert ist. Durch das zeitliche Umkehren realer Videos zu natürlichen kontrafaktischen Beispielen ohne zusätzliche Kosten etabliert YoCausal ein beliebig erweiterbares Evaluierungsprotokoll. Ebene 1 führt den Reverse Surprise Index (RSI) ein, der die Wahrnehmung der Zeitpfeilrichtung über den Denoising-Loss quantifiziert. Ebene 2 führt den Causality Cognition Index (CCI) ein, der eine VLM nutzt, um Datensätze in kausale und nicht-kausale Teilmengen zu stratifizieren und echtes kausales Reasoning von temporalen Verzerrungen zu trennen. Die Evaluierung von 13 state-of-the-art VDMs zeigt, dass die Wahrnehmung des Zeitpfeils nicht zwangsläufig ein Verständnis von Kausalität impliziert, und es besteht weiterhin eine signifikante Lücke im Vergleich zum kausalen Kognitionsniveau des Menschen.