HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole
vor 3 Tagen

Wan-Move: bewegungssteuerbare Videoerzeugung über latente Trajektorienführung

Wan-Move: bewegungssteuerbare Videoerzeugung über latente Trajektorienführung

Abstract

Wir stellen Wan-Move vor, einen einfachen und skalierbaren Rahmen, der Bewegungssteuerung in videogenerative Modelle einbringt. Bestehende Methoden zur bewegungssteuerbaren Generierung leiden typischerweise unter grober Steuerungsgenauigkeit und begrenzter Skalierbarkeit, wodurch ihre Ausgaben für praktische Anwendungen unzureichend sind. Wir schließen diese Lücke, indem wir präzise und hochwertige Bewegungssteuerung erreichen. Unser zentrales Konzept besteht darin, die ursprünglichen Bedingungsmerkmale direkt bewegungsbewusst zu machen, um die Video-Synthese zu leiten. Dazu repräsentieren wir Objektbewegungen zunächst durch dichte Punkttrajektorien, was eine feinabgestimmte Kontrolle über die Szene ermöglicht. Anschließend projizieren wir diese Trajektorien in den Latentraum und propagieren die Merkmale des ersten Frames entlang jeder Trajektorie, wodurch eine ausgerichtete spatiotemporale Merkmalskarte entsteht, die angibt, wie sich jedes Szenenelement bewegen soll. Diese Merkmalskarte dient als aktualisierte latente Bedingung, die nahtlos in bestehende Bild-zu-Video-Modelle – beispielsweise Wan-I2V-14B – integriert werden kann, ohne dass Änderungen am Architekturdesign erforderlich sind. Dadurch entfällt der Bedarf an zusätzlichen Bewegungscodierern und ermöglicht eine einfache Skalierbarkeit bei der Feinabstimmung von Basismodellen. Durch skalierte Trainingsstrategien erzeugt Wan-Move 5-Sekunden-Videos in 480p-Auflösung, deren Bewegungssteuerung gemäß Nutzerstudien die von Kling 1.5 Pro mit kommerziellem Motion Brush erreichte Qualität erreicht. Um eine umfassende Evaluation zu ermöglichen, haben wir zudem MoveBench entwickelt, einen sorgfältig zusammengestellten Benchmark mit vielfältigen Inhaltskategorien und hybrid-verifizierten Annotationen. Er zeichnet sich durch eine größere Datenvolumen, längere Videodauer und hochwertige Bewegungsannotationen aus. Ausführliche Experimente sowohl auf MoveBench als auch auf öffentlichen Datensätzen zeigen konsistent die überlegene Bewegungsqualität von Wan-Move. Der Quellcode, die Modelle sowie die Benchmark-Daten sind öffentlich verfügbar.

Code-Repositories

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Wan-Move: bewegungssteuerbare Videoerzeugung über latente Trajektorienführung | Forschungsarbeiten | HyperAI