HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 13 jours

Time-to-Move : Génération de vidéos contrôlées par le mouvement sans entraînement via le débruitage à horloge double

Assaf Singer Noam Rotstein Amir Mann Ron Kimmel Or Litany

Time-to-Move : Génération de vidéos contrôlées par le mouvement sans entraînement via le débruitage à horloge double

Résumé

La génération vidéo fondée sur la diffusion peut produire des vidéos réalistes, mais les méthodes actuelles basées sur l’image ou le texte ne permettent pas un contrôle précis du mouvement. Les approches antérieures de synthèse conditionnée par le mouvement exigent généralement un ajustage fin spécifique au modèle, ce qui s’avère coûteux en ressources computationnelles et restrictif. Nous introduisons Time-to-Move (TTM), un cadre plug-and-play, sans entraînement, pour la génération vidéo contrôlée à la fois en mouvement et en apparence, utilisant des modèles de diffusion image-to-video (I2V). Notre idée centrale consiste à exploiter des animations de référence brutes obtenues grâce à des manipulations intuitives, telles que le découpage et le glissement (cut-and-drag) ou la reprojection basée sur la profondeur. Inspirés par l’utilisation, dans SDEdit, de repères de disposition grossière pour l’édition d’images, nous traitons ces animations brutes comme des repères de mouvement grossiers, et adaptons ce mécanisme au domaine vidéo. Nous conservons l’apparence grâce à une condition image, et introduisons un débruitage à double horloge, une stratégie dépendante de la région qui impose un alignement fort dans les zones où le mouvement est spécifié, tout en permettant de la flexibilité ailleurs, équilibrant ainsi fidélité à l’intention de l’utilisateur et dynamique naturelle. Cette modification légère du processus d’échantillonnage n’entraîne ni coût supplémentaire d’entraînement ni de temps d’exécution, et est compatible avec n’importe quel modèle de base. Des expérimentations étendues sur des benchmarks de mouvement d’objets et de caméra montrent que TTM atteint ou dépasse les meilleures méthodes existantes basées sur l’entraînement en termes de réalisme et de contrôle du mouvement. Par ailleurs, TTM offre une capacité unique : un contrôle précis de l’apparence par conditionnement au niveau pixel, dépassant ainsi les limites des promtps textuels uniquement. Consultez notre page de projet pour voir des exemples vidéo et accéder au code source : https://time-to-move.github.io/.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Time-to-Move : Génération de vidéos contrôlées par le mouvement sans entraînement via le débruitage à horloge double | Articles de recherche | HyperAI