In-Video-Anweisungen: Visuelle Signale als generative Steuerung
Gongfan Fang Xinyin Ma Xinchao Wang

Abstract
Hier ist die Übersetzung des Textes ins Deutsche, verfasst in einem formellen, wissenschaftlichen Stil:Groß angelegte Videogenerierungsmodelle (Large-scale video generative models) haben kürzlich starke visuelle Fähigkeiten unter Beweis gestellt und ermöglichen die Vorhersage zukünftiger Frames, die den logischen und physikalischen Hinweisen der aktuellen Beobachtung folgen. In dieser Arbeit untersuchen wir, ob solche Fähigkeiten für eine steuerbare Bild-zu-Video-Generierung genutzt werden können, indem visuelle Signale, die in den Frames eingebettet sind, als Anweisungen interpretiert werden – ein Paradigma, das wir als „In-Video-Instruktion“ bezeichnen. Im Gegensatz zur Prompt-basierten Steuerung, die auf textuellen Beschreibungen beruht, welche inhärent global und grob gefasst sind, kodiert die In-Video-Instruktion Benutzervorgaben direkt durch Elemente wie überlagerten Text, Pfeile oder Trajektorien in die visuelle Domäne. Dies ermöglicht explizite, raumsensitive und eindeutige Zuordnungen zwischen visuellen Subjekten und deren beabsichtigten Aktionen, indem verschiedenen Objekten unterschiedliche Anweisungen zugewiesen werden. Umfangreiche Experimente mit drei hochmodernen Generatoren, darunter Veo 3.1, Kling 2.5 und Wan 2.2, zeigen, dass Videomodelle derartige visuell eingebettete Anweisungen zuverlässig interpretieren und ausführen können, insbesondere in komplexen Szenarien mit mehreren Objekten.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.