Structure From Tracking: Struktur erhaltende Bewegungsdistanzierung für die Videogenerierung
Structure From Tracking: Struktur erhaltende Bewegungsdistanzierung für die Videogenerierung
Yang Fei George Stoica Jingyuan Liu Qifeng Chen Ranjay Krishna Xiaojuan Wang Benlin Liu

Abstract
Die Realität ist ein Tanz zwischen starren Einschränkungen und verformbaren Strukturen. Für Videomodelle bedeutet dies die Generierung von Bewegungen, die sowohl die Treue zur Struktur als auch deren konsistente Gestalt bewahren. Trotz Fortschritten bei Diffusionsmodellen bleibt die Erzeugung realistischer, strukturbehafteter Bewegungen weiterhin herausfordernd, insbesondere für gegliederte und verformbare Objekte wie Menschen und Tiere. Die bloße Skalierung von Trainingsdaten hat bisher nicht ausgereicht, physikalisch unplausible Übergänge zu vermeiden. Bisherige Ansätze stützen sich auf eine Bedingungierung mittels verrauschter Bewegungsrepräsentationen, wie beispielsweise optischem Fluss oder Skeletten, die mit einem externen, unvollkommenen Modell extrahiert wurden. Um diese Herausforderungen anzugehen, stellen wir einen Algorithmus vor, der strukturbehaftete Bewegungsprioritäten aus einem autoregressiven Videotracking-Modell (SAM2) in ein bidirektionales Videodiffusionsmodell (CogVideoX) überführt. Mit unserer Methode trainieren wir SAM2VideoX, das zwei Innovationen enthält: (1) ein bidirektionales Merkmalsfusionmodul, das globale, strukturbehaftete Bewegungsprioritäten aus einem rekurrenten Modell wie SAM2 extrahiert; (2) eine lokale Gram-Flow-Verlustfunktion, die die gemeinsame Bewegung lokaler Merkmale ausrichtet. Experimente auf VBench und in menschlichen Studien zeigen, dass SAM2VideoX gegenüber vorherigen Baselines signifikante Verbesserungen erzielt (+2,60 % auf VBench, 21–22 % niedrigere FVD und 71,4 % menschliche Präferenz). Insbesondere erreichen wir auf VBench eine Genauigkeit von 95,51 %, was eine Verbesserung von 2,60 % gegenüber REPA (92,91 %) darstellt, und senken die FVD auf 360,57 – eine Verbesserung um 21,20 % gegenüber REPA und 22,46 % gegenüber LoRA-Feinabstimmung. Die Projekt-Website ist unter https://sam2videox.github.io/ erreichbar.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.