HyperAI

Hier ist die Übersetzung des Textes ins Deutsche, verfasst in einem formellen, wissenschaftlichen Stil:Groß angelegte Videogenerierungsmodelle (Large-scale video generative models) haben kürzlich starke visuelle Fähigkeiten unter Beweis gestellt und ermöglichen die Vorhersage zukünftiger Frames, die den logischen und physikalischen Hinweisen der aktuellen Beobachtung folgen. In dieser Arbeit untersuchen wir, ob solche Fähigkeiten für eine steuerbare Bild-zu-Video-Generierung genutzt werden können, indem visuelle Signale, die in den Frames eingebettet sind, als Anweisungen interpretiert werden – ein Paradigma, das wir als „In-Video-Instruktion“ bezeichnen. Im Gegensatz zur Prompt-basierten Steuerung, die auf textuellen Beschreibungen beruht, welche inhärent global und grob gefasst sind, kodiert die In-Video-Instruktion Benutzervorgaben direkt durch Elemente wie überlagerten Text, Pfeile oder Trajektorien in die visuelle Domäne. Dies ermöglicht explizite, raumsensitive und eindeutige Zuordnungen zwischen visuellen Subjekten und deren beabsichtigten Aktionen, indem verschiedenen Objekten unterschiedliche Anweisungen zugewiesen werden. Umfangreiche Experimente mit drei hochmodernen Generatoren, darunter Veo 3.1, Kling 2.5 und Wan 2.2, zeigen, dass Videomodelle derartige visuell eingebettete Anweisungen zuverlässig interpretieren und ausführen können, insbesondere in komplexen Szenarien mit mehreren Objekten.

In-Video-Anweisungen: Visuelle Signale als generative Steuerung

Gongfan Fang Xinyin Ma Xinchao Wang

Abstract

KI mit KI entwickeln

Hyper Newsletters

Command Palette

In-Video-Anweisungen: Visuelle Signale als generative Steuerung

Gongfan Fang Xinyin Ma Xinchao Wang

Abstract

KI mit KI entwickeln

Hyper Newsletters