vor einem Monat

VChain: Chain-of-Visual-Thought für das Schlussfolgern in der Videogenerierung

Details der Forschungsarbeit anzeigen Code anzeigen

Ziqi Huang Ning Yu Gordon Chen Haonan Qiu Paul Debevec Ziwei Liu

VChain: Chain-of-Visual-Thought für das Schlussfolgern in der Videogenerierung

Abstract

Neuere Videogenerationsmodelle können flüssige und visuell ansprechende Clips erzeugen, stoßen jedoch häufig an ihre Grenzen, wenn es darum geht, komplexe Dynamiken mit einer kohärenten Folge von Konsequenzen zu synthetisieren. Die präzise Modellierung visueller Ergebnisse und Zustandsübergänge über die Zeit bleibt eine zentrale Herausforderung. Im Gegensatz dazu verfügen große Sprach- und multimodale Modelle (z. B. GPT-4o) über starke Fähigkeiten im Bereich visueller Zustandsreasoning und zukünftiger Vorhersagen. Um diese Stärken zu kombinieren, stellen wir VChain vor – einen neuartigen Framework für den Inferenzzeit-Chain-of-Visual-Thought-Ansatz, der visuelle Reasoning-Signale aus multimodalen Modellen in die Videogenerierung einfließen lässt. Konkret umfasst VChain eine spezialisierte Pipeline, die große multimodale Modelle nutzt, um eine spärliche Menge kritischer Schlüsselbilder als „Schnappschüsse“ zu generieren. Diese Schlüsselbilder dienen anschließend dazu, die spärliche Inferenzzeit-Anpassung eines vortrainierten Videogenerators ausschließlich zu diesen entscheidenden Zeitpunkten zu leiten. Unser Ansatz ist effizient im Tuning, verursacht nur geringen Overhead und verzichtet auf dichte Supervision. Umfangreiche Experimente an komplexen, mehrschrittigen Szenarien zeigen, dass VChain die Qualität generierter Videos erheblich verbessert.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

VChain: Chain-of-Visual-Thought für das Schlussfolgern in der Videogenerierung

Ziqi Huang Ning Yu Gordon Chen Haonan Qiu Paul Debevec Ziwei Liu

Abstract

KI mit KI entwickeln

Hyper Newsletters