HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole
vor 17 Stunden

Structure From Tracking: Struktur erhaltende Bewegungsdistanzierung für die Videogenerierung

Yang Fei George Stoica Jingyuan Liu Qifeng Chen Ranjay Krishna Xiaojuan Wang Benlin Liu

Structure From Tracking: Struktur erhaltende Bewegungsdistanzierung für die Videogenerierung

Abstract

Die Realität ist ein Tanz zwischen starren Einschränkungen und verformbaren Strukturen. Für Videomodelle bedeutet dies die Generierung von Bewegungen, die sowohl die Treue zur Struktur als auch deren konsistente Gestalt bewahren. Trotz Fortschritten bei Diffusionsmodellen bleibt die Erzeugung realistischer, strukturbehafteter Bewegungen weiterhin herausfordernd, insbesondere für gegliederte und verformbare Objekte wie Menschen und Tiere. Die bloße Skalierung von Trainingsdaten hat bisher nicht ausgereicht, physikalisch unplausible Übergänge zu vermeiden. Bisherige Ansätze stützen sich auf eine Bedingungierung mittels verrauschter Bewegungsrepräsentationen, wie beispielsweise optischem Fluss oder Skeletten, die mit einem externen, unvollkommenen Modell extrahiert wurden. Um diese Herausforderungen anzugehen, stellen wir einen Algorithmus vor, der strukturbehaftete Bewegungsprioritäten aus einem autoregressiven Videotracking-Modell (SAM2) in ein bidirektionales Videodiffusionsmodell (CogVideoX) überführt. Mit unserer Methode trainieren wir SAM2VideoX, das zwei Innovationen enthält: (1) ein bidirektionales Merkmalsfusionmodul, das globale, strukturbehaftete Bewegungsprioritäten aus einem rekurrenten Modell wie SAM2 extrahiert; (2) eine lokale Gram-Flow-Verlustfunktion, die die gemeinsame Bewegung lokaler Merkmale ausrichtet. Experimente auf VBench und in menschlichen Studien zeigen, dass SAM2VideoX gegenüber vorherigen Baselines signifikante Verbesserungen erzielt (+2,60 % auf VBench, 21–22 % niedrigere FVD und 71,4 % menschliche Präferenz). Insbesondere erreichen wir auf VBench eine Genauigkeit von 95,51 %, was eine Verbesserung von 2,60 % gegenüber REPA (92,91 %) darstellt, und senken die FVD auf 360,57 – eine Verbesserung um 21,20 % gegenüber REPA und 22,46 % gegenüber LoRA-Feinabstimmung. Die Projekt-Website ist unter https://sam2videox.github.io/ erreichbar.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp