HyperAIHyperAI

Command Palette

Search for a command to run...

vor 13 Tagen

Time-to-Move: Bewegungssteuerung von Videogenerierung ohne Training durch dualen Uhrzeit-Rauschunterdrückung

Assaf Singer Noam Rotstein Amir Mann Ron Kimmel Or Litany

Time-to-Move: Bewegungssteuerung von Videogenerierung ohne Training durch dualen Uhrzeit-Rauschunterdrückung

Abstract

Die auf Diffusion basierende Videogenerierung kann realistische Videos erzeugen, doch bestehende Methoden, die auf Bild- oder Textbedingungen basieren, bieten keine präzise Bewegungssteuerung. Vorherige Ansätze zur bewegungsbedingten Synthese erfordern typischerweise eine modellspezifische Feinabstimmung, was rechenintensiv und eingeschränkt ist. Wir stellen Time-to-Move (TTM) vor, einen trainingsfreien, plug-and-play-Framework für die bewegungs- und erscheinungskontrollierte Videogenerierung mit Bild-zu-Video (I2V)-Diffusionsmodellen. Unser zentrales Konzept besteht darin, grobe Referenzanimationen zu nutzen, die durch benutzerfreundliche Manipulationen wie Ausschneiden und Ziehen oder tiefenbasierte Reprojektion erzeugt werden. Angeregt durch SDEdit, das grobe Layout-Hinweise für die Bildbearbeitung nutzt, betrachten wir die groben Animationen als grobe Bewegungshinweise und adaptieren das Verfahren auf den Video-Bereich. Die Erscheinung wird durch Bildbedingung bewahrt, und wir führen ein dualer-Taktdesensibilisierungsverfahren ein, eine regionenabhängige Strategie, die eine starke Ausrichtung in bewegungsdefinierten Regionen erzwingt, während sie ansonsten Flexibilität zulässt, wodurch die Treue zum Benutzerintention mit natürlichen Dynamiken ausgeglichen wird. Diese leichtgewichtige Modifikation des Sampling-Prozesses verursacht keine zusätzlichen Trainings- oder Laufzeitkosten und ist mit jedem Basismodell kompatibel. Umfangreiche Experimente an Benchmarks für Objekt- und Kamerabewegungen zeigen, dass TTM bestehende trainingsbasierte Baselines hinsichtlich Realismus und Bewegungssteuerung erreicht oder sogar übertrifft. Darüber hinaus ermöglicht TTM eine einzigartige Fähigkeit: präzise Erscheinungssteuerung durch pixelgenaue Bedingung, die die Grenzen rein textbasierter Anweisungen übersteigt. Besuchen Sie unsere Projektseite für Videobeispiele und den Quellcode: https://time-to-move.github.io/.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Time-to-Move: Bewegungssteuerung von Videogenerierung ohne Training durch dualen Uhrzeit-Rauschunterdrückung | Forschungsarbeiten | HyperAI