Command Palette
Search for a command to run...
MATRIX: Mask Track Alignment für interaktionsbewusste Videoerzeugung
Siyoon Jin Seongchan Kim Dahyun Chung Jaeho Lee Hyunwook Choi Jisu Nam Jiyoung Kim Seungryong Kim

Abstract
Video-DiTs haben die Video-Generierung vorangebracht, stoßen jedoch weiterhin an Grenzen, wenn es darum geht, Mehrfachinstanzen oder Interaktionen zwischen Subjekten und Objekten zu modellieren. Dies wirft eine zentrale Frage auf: Wie repräsentieren diese Modelle Interaktionen intern? Um diese Frage zu beantworten, haben wir das DATENSATZ MATRIX-11K erstellt, einen Video-Datensatz mit interaktionsbewussten Beschreibungen und mehrfachen Maskenverläufen. Anhand dieses Datensatzes führen wir eine systematische Analyse durch, die zwei Perspektiven der Video-DiTs formalisiert: die semantische Grundlage mittels Video-zu-Text-Attention, die prüft, ob Nomen- und Verben-Tokens Instanzen und deren Beziehungen erfassen; und die semantische Propagation mittels Video-zu-Video-Attention, die bewertet, ob Instanzbindungen über mehrere Frames hinweg bestehen bleiben. Wir stellen fest, dass beide Effekte sich auf eine kleine Teilmenge von Interaktionsschichten konzentrieren. Ausgehend davon stellen wir MATRIX vor, eine einfache und effektive Regularisierung, die die Aufmerksamkeit bestimmter Schichten von Video-DiTs mit den mehrfachen Maskenverläufen aus dem MATRIX-11K-Datensatz ausrichtet und sowohl die semantische Grundlage als auch die Propagation verbessert. Darüber hinaus schlagen wir InterGenEval vor, ein Evaluationsprotokoll für interaktionsbewusste Video-Generierung. In Experimenten zeigt MATRIX eine Verbesserung sowohl der Interaktionsgenauigkeit als auch der semantischen Ausrichtung, gleichzeitig verringert es Drift und Halluzinationen. Umfangreiche Ablationsstudien bestätigen unsere Designentscheidungen. Die Codes und Modelle werden veröffentlicht.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.