HyperAIHyperAI

Command Palette

Search for a command to run...

vor 6 Stunden

In-Video-Anweisungen: Visuelle Signale als generative Steuerung

Gongfan Fang Xinyin Ma Xinchao Wang

In-Video-Anweisungen: Visuelle Signale als generative Steuerung

Abstract

Hier ist die Übersetzung des Textes ins Deutsche, verfasst in einem formellen, wissenschaftlichen Stil:Groß angelegte Videogenerierungsmodelle (Large-scale video generative models) haben kürzlich starke visuelle Fähigkeiten unter Beweis gestellt und ermöglichen die Vorhersage zukünftiger Frames, die den logischen und physikalischen Hinweisen der aktuellen Beobachtung folgen. In dieser Arbeit untersuchen wir, ob solche Fähigkeiten für eine steuerbare Bild-zu-Video-Generierung genutzt werden können, indem visuelle Signale, die in den Frames eingebettet sind, als Anweisungen interpretiert werden – ein Paradigma, das wir als „In-Video-Instruktion“ bezeichnen. Im Gegensatz zur Prompt-basierten Steuerung, die auf textuellen Beschreibungen beruht, welche inhärent global und grob gefasst sind, kodiert die In-Video-Instruktion Benutzervorgaben direkt durch Elemente wie überlagerten Text, Pfeile oder Trajektorien in die visuelle Domäne. Dies ermöglicht explizite, raumsensitive und eindeutige Zuordnungen zwischen visuellen Subjekten und deren beabsichtigten Aktionen, indem verschiedenen Objekten unterschiedliche Anweisungen zugewiesen werden. Umfangreiche Experimente mit drei hochmodernen Generatoren, darunter Veo 3.1, Kling 2.5 und Wan 2.2, zeigen, dass Videomodelle derartige visuell eingebettete Anweisungen zuverlässig interpretieren und ausführen können, insbesondere in komplexen Szenarien mit mehreren Objekten.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
In-Video-Anweisungen: Visuelle Signale als generative Steuerung | Forschungsarbeiten | HyperAI