vor 2 Monaten

Zusammenfassung

Die Realität ist ein Tanz zwischen starren Einschränkungen und verformbaren Strukturen. Für Videomodelle bedeutet dies die Generierung von Bewegungen, die sowohl die Treue zur Struktur als auch deren konsistente Gestalt bewahren. Trotz Fortschritten bei Diffusionsmodellen bleibt die Erzeugung realistischer, strukturbehafteter Bewegungen weiterhin herausfordernd, insbesondere für gegliederte und verformbare Objekte wie Menschen und Tiere. Die bloße Skalierung von Trainingsdaten hat bisher nicht ausgereicht, physikalisch unplausible Übergänge zu vermeiden. Bisherige Ansätze stützen sich auf eine Bedingungierung mittels verrauschter Bewegungsrepräsentationen, wie beispielsweise optischem Fluss oder Skeletten, die mit einem externen, unvollkommenen Modell extrahiert wurden. Um diese Herausforderungen anzugehen, stellen wir einen Algorithmus vor, der strukturbehaftete Bewegungsprioritäten aus einem autoregressiven Videotracking-Modell (SAM2) in ein bidirektionales Videodiffusionsmodell (CogVideoX) überführt. Mit unserer Methode trainieren wir SAM2VideoX, das zwei Innovationen enthält: (1) ein bidirektionales Merkmalsfusionmodul, das globale, strukturbehaftete Bewegungsprioritäten aus einem rekurrenten Modell wie SAM2 extrahiert; (2) eine lokale Gram-Flow-Verlustfunktion, die die gemeinsame Bewegung lokaler Merkmale ausrichtet. Experimente auf VBench und in menschlichen Studien zeigen, dass SAM2VideoX gegenüber vorherigen Baselines signifikante Verbesserungen erzielt (+2,60 % auf VBench, 21–22 % niedrigere FVD und 71,4 % menschliche Präferenz). Insbesondere erreichen wir auf VBench eine Genauigkeit von 95,51 %, was eine Verbesserung von 2,60 % gegenüber REPA (92,91 %) darstellt, und senken die FVD auf 360,57 – eine Verbesserung um 21,20 % gegenüber REPA und 22,46 % gegenüber LoRA-Feinabstimmung. Die Projekt-Website ist unter https://sam2videox.github.io/ erreichbar.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 2 Monaten

Yang Fei George Stoica Jingyuan Liu Qifeng Chen Ranjay Krishna Xiaojuan Wang Benlin Liu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 2 Monaten

Yang Fei George Stoica Jingyuan Liu Qifeng Chen Ranjay Krishna Xiaojuan Wang Benlin Liu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Structure From Tracking: Struktur erhaltende Bewegungsdistanzierung für die Videogenerierung

Yang Fei George Stoica Jingyuan Liu Qifeng Chen Ranjay Krishna Xiaojuan Wang Benlin Liu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Structure From Tracking: Struktur erhaltende Bewegungsdistanzierung für die Videogenerierung

Yang Fei George Stoica Jingyuan Liu Qifeng Chen Ranjay Krishna Xiaojuan Wang Benlin Liu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Structure From Tracking: Struktur erhaltende Bewegungsdistanzierung für die Videogenerierung

Yang Fei George Stoica Jingyuan Liu Qifeng Chen Ranjay Krishna Xiaojuan Wang Benlin Liu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters