HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

MATRIX: Mask Track Alignment für interaktionsbewusste Videoerzeugung

Siyoon Jin Seongchan Kim Dahyun Chung Jaeho Lee Hyunwook Choi Jisu Nam Jiyoung Kim Seungryong Kim

MATRIX: Mask Track Alignment für interaktionsbewusste Videoerzeugung

Abstract

Video-DiTs haben die Video-Generierung vorangebracht, stoßen jedoch weiterhin an Grenzen, wenn es darum geht, Mehrfachinstanzen oder Interaktionen zwischen Subjekten und Objekten zu modellieren. Dies wirft eine zentrale Frage auf: Wie repräsentieren diese Modelle Interaktionen intern? Um diese Frage zu beantworten, haben wir das DATENSATZ MATRIX-11K erstellt, einen Video-Datensatz mit interaktionsbewussten Beschreibungen und mehrfachen Maskenverläufen. Anhand dieses Datensatzes führen wir eine systematische Analyse durch, die zwei Perspektiven der Video-DiTs formalisiert: die semantische Grundlage mittels Video-zu-Text-Attention, die prüft, ob Nomen- und Verben-Tokens Instanzen und deren Beziehungen erfassen; und die semantische Propagation mittels Video-zu-Video-Attention, die bewertet, ob Instanzbindungen über mehrere Frames hinweg bestehen bleiben. Wir stellen fest, dass beide Effekte sich auf eine kleine Teilmenge von Interaktionsschichten konzentrieren. Ausgehend davon stellen wir MATRIX vor, eine einfache und effektive Regularisierung, die die Aufmerksamkeit bestimmter Schichten von Video-DiTs mit den mehrfachen Maskenverläufen aus dem MATRIX-11K-Datensatz ausrichtet und sowohl die semantische Grundlage als auch die Propagation verbessert. Darüber hinaus schlagen wir InterGenEval vor, ein Evaluationsprotokoll für interaktionsbewusste Video-Generierung. In Experimenten zeigt MATRIX eine Verbesserung sowohl der Interaktionsgenauigkeit als auch der semantischen Ausrichtung, gleichzeitig verringert es Drift und Halluzinationen. Umfangreiche Ablationsstudien bestätigen unsere Designentscheidungen. Die Codes und Modelle werden veröffentlicht.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MATRIX: Mask Track Alignment für interaktionsbewusste Videoerzeugung | Forschungsarbeiten | HyperAI