Command Palette
Search for a command to run...
Time-to-Move : Génération de vidéos contrôlées par le mouvement sans entraînement via le débruitage à horloge double
Assaf Singer Noam Rotstein Amir Mann Ron Kimmel Or Litany

Résumé
La génération vidéo fondée sur la diffusion peut produire des vidéos réalistes, mais les méthodes actuelles basées sur l’image ou le texte ne permettent pas un contrôle précis du mouvement. Les approches antérieures de synthèse conditionnée par le mouvement exigent généralement un ajustage fin spécifique au modèle, ce qui s’avère coûteux en ressources computationnelles et restrictif. Nous introduisons Time-to-Move (TTM), un cadre plug-and-play, sans entraînement, pour la génération vidéo contrôlée à la fois en mouvement et en apparence, utilisant des modèles de diffusion image-to-video (I2V). Notre idée centrale consiste à exploiter des animations de référence brutes obtenues grâce à des manipulations intuitives, telles que le découpage et le glissement (cut-and-drag) ou la reprojection basée sur la profondeur. Inspirés par l’utilisation, dans SDEdit, de repères de disposition grossière pour l’édition d’images, nous traitons ces animations brutes comme des repères de mouvement grossiers, et adaptons ce mécanisme au domaine vidéo. Nous conservons l’apparence grâce à une condition image, et introduisons un débruitage à double horloge, une stratégie dépendante de la région qui impose un alignement fort dans les zones où le mouvement est spécifié, tout en permettant de la flexibilité ailleurs, équilibrant ainsi fidélité à l’intention de l’utilisateur et dynamique naturelle. Cette modification légère du processus d’échantillonnage n’entraîne ni coût supplémentaire d’entraînement ni de temps d’exécution, et est compatible avec n’importe quel modèle de base. Des expérimentations étendues sur des benchmarks de mouvement d’objets et de caméra montrent que TTM atteint ou dépasse les meilleures méthodes existantes basées sur l’entraînement en termes de réalisme et de contrôle du mouvement. Par ailleurs, TTM offre une capacité unique : un contrôle précis de l’apparence par conditionnement au niveau pixel, dépassant ainsi les limites des promtps textuels uniquement. Consultez notre page de projet pour voir des exemples vidéo et accéder au code source : https://time-to-move.github.io/.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.