SteadyDancer: Harmonisierte und kohärente Animation menschlicher Bilder mit Erhaltung des ersten Frames

Abstract
Die Erhaltung der Identität des ersten Bildes bei gleichzeitiger Gewährleistung präziser Bewegungssteuerung stellt eine grundlegende Herausforderung bei der Animation menschlicher Bilder dar. Der Image-to-Motion-Bindungsprozess im dominierenden Referenz-zu-Video-(R2V)-Paradigma vernachlässigt kritische räumlich-zeitliche Missalignments, die in realen Anwendungen häufig auftreten, was zu Fehlern wie Identitätsdrift und visuellen Artefakten führt. Wir stellen SteadyDancer vor, einen auf dem Image-zu-Video-(I2V)-Paradigma basierenden Ansatz, der eine harmonisierte und kohärente Animation ermöglicht und der erste ist, der die Erhaltung des ersten Bildes robust gewährleistet. Zunächst schlagen wir eine Bedingungsrekonstruktionsmechanik vor, um die beiden widersprüchlichen Bedingungen zu harmonisieren und präzise Steuerung ohne Verlust der Fidelität zu ermöglichen. Zweitens entwerfen wir synergistische Pose-Modulationsmodule, um eine adaptive und kohärente Pose-Darstellung zu generieren, die hochgradig mit dem Referenzbild kompatibel ist. Schließlich setzen wir eine stufenweise, entkoppelte Trainingspipeline ein, die das Modell hierarchisch für Bewegungsfidelität, visuelle Qualität und zeitliche Kohärenz optimiert. Experimente zeigen, dass SteadyDancer sowohl in Bezug auf die Aufnahmefidelität als auch auf die Bewegungssteuerung die derzeit beste Leistung erzielt und dabei signifikant weniger Trainingsressourcen als vergleichbare Methoden benötigt.
Code-Repositories
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.