HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

VChain: Chain-of-Visual-Thought für das Schlussfolgern in der Videogenerierung

Ziqi Huang Ning Yu Gordon Chen Haonan Qiu Paul Debevec Ziwei Liu

VChain: Chain-of-Visual-Thought für das Schlussfolgern in der Videogenerierung

Abstract

Neuere Videogenerationsmodelle können flüssige und visuell ansprechende Clips erzeugen, stoßen jedoch häufig an ihre Grenzen, wenn es darum geht, komplexe Dynamiken mit einer kohärenten Folge von Konsequenzen zu synthetisieren. Die präzise Modellierung visueller Ergebnisse und Zustandsübergänge über die Zeit bleibt eine zentrale Herausforderung. Im Gegensatz dazu verfügen große Sprach- und multimodale Modelle (z. B. GPT-4o) über starke Fähigkeiten im Bereich visueller Zustandsreasoning und zukünftiger Vorhersagen. Um diese Stärken zu kombinieren, stellen wir VChain vor – einen neuartigen Framework für den Inferenzzeit-Chain-of-Visual-Thought-Ansatz, der visuelle Reasoning-Signale aus multimodalen Modellen in die Videogenerierung einfließen lässt. Konkret umfasst VChain eine spezialisierte Pipeline, die große multimodale Modelle nutzt, um eine spärliche Menge kritischer Schlüsselbilder als „Schnappschüsse“ zu generieren. Diese Schlüsselbilder dienen anschließend dazu, die spärliche Inferenzzeit-Anpassung eines vortrainierten Videogenerators ausschließlich zu diesen entscheidenden Zeitpunkten zu leiten. Unser Ansatz ist effizient im Tuning, verursacht nur geringen Overhead und verzichtet auf dichte Supervision. Umfangreiche Experimente an komplexen, mehrschrittigen Szenarien zeigen, dass VChain die Qualität generierter Videos erheblich verbessert.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
VChain: Chain-of-Visual-Thought für das Schlussfolgern in der Videogenerierung | Forschungsarbeiten | HyperAI