Command Palette
Search for a command to run...
VChain: Chain-of-Visual-Thought für das Schlussfolgern in der Videogenerierung
Ziqi Huang Ning Yu Gordon Chen Haonan Qiu Paul Debevec Ziwei Liu

Abstract
Neuere Videogenerationsmodelle können flüssige und visuell ansprechende Clips erzeugen, stoßen jedoch häufig an ihre Grenzen, wenn es darum geht, komplexe Dynamiken mit einer kohärenten Folge von Konsequenzen zu synthetisieren. Die präzise Modellierung visueller Ergebnisse und Zustandsübergänge über die Zeit bleibt eine zentrale Herausforderung. Im Gegensatz dazu verfügen große Sprach- und multimodale Modelle (z. B. GPT-4o) über starke Fähigkeiten im Bereich visueller Zustandsreasoning und zukünftiger Vorhersagen. Um diese Stärken zu kombinieren, stellen wir VChain vor – einen neuartigen Framework für den Inferenzzeit-Chain-of-Visual-Thought-Ansatz, der visuelle Reasoning-Signale aus multimodalen Modellen in die Videogenerierung einfließen lässt. Konkret umfasst VChain eine spezialisierte Pipeline, die große multimodale Modelle nutzt, um eine spärliche Menge kritischer Schlüsselbilder als „Schnappschüsse“ zu generieren. Diese Schlüsselbilder dienen anschließend dazu, die spärliche Inferenzzeit-Anpassung eines vortrainierten Videogenerators ausschließlich zu diesen entscheidenden Zeitpunkten zu leiten. Unser Ansatz ist effizient im Tuning, verursacht nur geringen Overhead und verzichtet auf dichte Supervision. Umfangreiche Experimente an komplexen, mehrschrittigen Szenarien zeigen, dass VChain die Qualität generierter Videos erheblich verbessert.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.