HyperAI

La génération vidéo fondée sur la diffusion peut produire des vidéos réalistes, mais les méthodes actuelles basées sur l’image ou le texte ne permettent pas un contrôle précis du mouvement. Les approches antérieures de synthèse conditionnée par le mouvement exigent généralement un ajustage fin spécifique au modèle, ce qui s’avère coûteux en ressources computationnelles et restrictif. Nous introduisons Time-to-Move (TTM), un cadre plug-and-play, sans entraînement, pour la génération vidéo contrôlée à la fois en mouvement et en apparence, utilisant des modèles de diffusion image-to-video (I2V). Notre idée centrale consiste à exploiter des animations de référence brutes obtenues grâce à des manipulations intuitives, telles que le découpage et le glissement (cut-and-drag) ou la reprojection basée sur la profondeur. Inspirés par l’utilisation, dans SDEdit, de repères de disposition grossière pour l’édition d’images, nous traitons ces animations brutes comme des repères de mouvement grossiers, et adaptons ce mécanisme au domaine vidéo. Nous conservons l’apparence grâce à une condition image, et introduisons un débruitage à double horloge, une stratégie dépendante de la région qui impose un alignement fort dans les zones où le mouvement est spécifié, tout en permettant de la flexibilité ailleurs, équilibrant ainsi fidélité à l’intention de l’utilisateur et dynamique naturelle. Cette modification légère du processus d’échantillonnage n’entraîne ni coût supplémentaire d’entraînement ni de temps d’exécution, et est compatible avec n’importe quel modèle de base. Des expérimentations étendues sur des benchmarks de mouvement d’objets et de caméra montrent que TTM atteint ou dépasse les meilleures méthodes existantes basées sur l’entraînement en termes de réalisme et de contrôle du mouvement. Par ailleurs, TTM offre une capacité unique : un contrôle précis de l’apparence par conditionnement au niveau pixel, dépassant ainsi les limites des promtps textuels uniquement. Consultez notre page de projet pour voir des exemples vidéo et accéder au code source : https://time-to-move.github.io/.

Time-to-Move : Génération de vidéos contrôlées par le mouvement sans entraînement via le débruitage à horloge double

Assaf Singer Noam Rotstein Amir Mann Ron Kimmel Or Litany

Résumé

Construire l'IA avec l'IA

Hyper Newsletters

Command Palette

Time-to-Move : Génération de vidéos contrôlées par le mouvement sans entraînement via le débruitage à horloge double

Assaf Singer Noam Rotstein Amir Mann Ron Kimmel Or Litany

Résumé

Construire l'IA avec l'IA

Hyper Newsletters