Command Palette
Search for a command to run...
Video-As-Prompt: Einheitliche semantische Steuerung für die Videogenerierung
Yuxuan Bian Xin Chen Zenan Li Tiancheng Zhi Shen Sang Linjie Luo Qiang Xu

Abstract
Eine einheitliche und verallgemeinerbare semantische Steuerung bei der Videogenerierung bleibt eine zentrale offene Herausforderung. Bestehende Ansätze führen entweder zu Artefakten, indem sie ungeeignete pixelweise Prioritäten aus strukturbasierenden Steuerungen erzwingen, oder setzen auf nicht verallgemeinerbare, bedingungsspezifische Feinabstimmungen oder auf aufgabenbezogene Architekturen. Wir stellen Video-As-Prompt (VAP) vor, ein neues Paradigma, das dieses Problem als Kontext-gesteuerte Generierung neu formuliert. VAP nutzt ein Referenzvideo als direkten semantischen Prompt und leitet damit einen fixierten Video-Diffusion-Transformer (DiT) über einen plug-and-play-Mixture-of-Transformers (MoT)-Experten. Diese Architektur verhindert katastrophales Vergessen und wird durch eine zeitlich verzerrte Positionsembedding geleitet, die spurious Mapping-Prioritäten eliminiert und somit eine robuste Kontextretrieval ermöglicht. Um diesen Ansatz zu unterstützen und zukünftige Forschung voranzutreiben, haben wir VAP-Data aufgebaut – die bislang größte Datensammlung für semantisch gesteuerte Videogenerierung mit über 100.000 Paarvideos über 100 semantische Bedingungen hinweg. Als einheitliches, einziges Modell erreicht VAP einen neuen Sollwert für Open-Source-Methoden und erzielt eine Nutzerpräferenzrate von 38,7 %, die führende, bedingungsspezifische kommerzielle Modelle in ihrer Leistung erreicht. VAPs starke Zero-Shot-Verallgemeinerungsfähigkeit und die Unterstützung vieler Anwendungsfälle markieren einen bedeutenden Fortschritt hin zu allgemein verwendbaren, steuerbaren Video-Generationsverfahren.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.