HyperAI
Back to Headlines

Google DeepMind Dévoile "Motion Prompting" : Une Révolution dans la Contrôle Précis des Vidéos Générées par IA

il y a 24 jours

Résumé de la Nouvelle : Le Papier de Google DeepMind sur "Motion Prompting" Présenté au CVPR 2025 Synthèse des Informations Principales (500 mots) Présentation de la Technologie Lors de la conférence CVPR 2025, les chercheurs de Google DeepMind, de l'Université du Michigan et de Brown University ont introduit une nouvelle méthode nommée "Motion Prompting". Cette technique permet de contrôler la génération vidéo en utilisant des trajectoires de mouvement spécifiques, appelées "motion prompts". Une innovation majeure est la "motion prompt expansion", qui convertit les demandes de haut niveau des utilisateurs, comme des mouvements de souris, en instructions détaillées pour le modèle, ainsi que son capacité à effectuer de nombreuses tâches sans avoir besoin d'être réentraînée pour chacune d'elles. Définition des Motion Prompts Les motion prompts sont une représentation flexible du mouvement, pouvant être spatio-temporellementparse ou dense. En d'autres termes, ils suivent le chemin des points de mouvement au fil du temps, capturant aussi bien les subtilités du battement de cils que les mouvements complexes d'une caméra. Ce format permet une description précise de n'importe quel type de mouvement, ce qui était jusqu'alors difficile à réaliser avec des prompts textuels. Fonctionnement Technique La base de cette recherche est le ControlNet, un adaptateur entraîné sur un modèle de diffusion vidéo pré-entraîné appelé Lumiere. ControlNet a été formé sur un ensemble de données massif de plus de 2,2 millions de vidéos, chacune dotée de pistes de mouvement détaillées extraites par un algorithme nommé BootsTAP. Cette diversité dans l'entraînement permet au modèle de comprendre et de générer une large gamme de mouvements sans nécessiter une ingénierie spécialisée pour chaque tâche. Applications Intuitives Pour faciliter l'utilisation, les chercheurs ont développé le processus de "motion prompt expansion". Il traduit les entrées de haut niveau de l'utilisateur, telles que des clics et des glissements de souris, en motion prompts semi-denses et détaillés. Voici quelques exemples d'applications : Interaction avec une Image : L'utilisateur peut cliquer et faire glisser la souris sur un objet statique pour le faire bouger. Par exemple, un cliquetis et un glissé sur la tête d'un perroquet peuvent la faire tourner, ou sur les cheveux d'une personne pour "jouer" avec eux. Le modèle génère alors une vidéo réaliste de cet action, montrant même des comportements émergents comme le sable qui se disperse de manière réaliste lorsqu'il est "poussé" par le curseur. Contrôle d'Objets et de Caméras : Les mouvements de souris peuvent être interprétés pour manipuler des primitives géométriques invisibles, ce qui permet un contrôle précis, comme le rotation exacte de la tête d'un chat. De même, le système peut générer des mouvements complexes de caméra en estimant la profondeur de la scène à partir du premier cadre et en projetant le chemin de caméra désiré. Le modèle est également capable de combiner ces prompts pour contrôler simultanément un objet et la caméra. Transfert de Mouvements : Cette fonctionnalité permet d'appliquer les mouvements d'une vidéo source à un sujet différent dans une image statique. Par exemple, les mouvements de tête d'une personne peuvent être transférés à un macaque, effectively "puppeteering" l'animal et lui faisant reproduire les mouvements avec précision. Évaluations et Comparaisons Les chercheurs ont effectué de nombreux tests quantitatifs et qualitatifs pour valider leur approche. Ils ont comparé leur modèle à des modèles récents tels que Image Conductor et DragAnything. Dans presque tous les critères évalués, y compris la qualité d'image (PSNR, SSIM) et la précision du mouvement (EPE), le modèle Motion Prompting a surpassé les modèles de référence. Un test humain a également confirmé ces résultats, les participants ayant préféré les vidéos générées par Motion Prompting, citant une meilleure adhésion aux commandes de mouvement, un mouvement plus réaliste et une qualité visuelle supérieure. Limites Actuelles Les chercheurs reconnaissent certaines limitations de leur système. Parfois, le modèle produit des résultats irréalistes, comme l'étirement exagéré d'un objet si des parties de celui-ci sont incorrectement "verrouillées" au fond. Cependant, ils estiment que ces échecs sont précieux pour identifier les faiblesses du modèle et comprendre mieux ses limites en matière de compréhension du monde physique. Perspectives Futures Ce travail représente une avancée significative vers la création de modèles vidéo génératifs truly interactifs et contrôlables. En se concentrant sur l'élément fondamental du mouvement, l'équipe a développé un outil polyvalent et puissant qui pourrait devenir une norme pour les professionnels et les créatifs souhaitant exploiter pleinement le potentiel de l'IA dans la production vidéo. Actuellement, le processus prend environ 10 minutes pour traiter une vidéo, mais cette durée devrait diminuer avec les améliorations technologiques. Évaluation et Profil de l’Entreprise (100 mots) L'introduction de "Motion Prompting" par Google DeepMind est largement saluée dans l'industrie comme une rupture technologique qui pourrait transformer les domaines de la publicité, du cinéma et du divertissement interactif. Google DeepMind, connu pour ses avancées dans l'IA, poursuit son objectif de créer des technologies qui augmentent la créativité humaine. Cette technique offre non seulement un meilleur contrôle créatif, mais ouvre également de nouvelles possibilités pour l'apprentissage automatique et la recherche en intelligence artificielle. Les professionnels de la production vidéo attendent avec impatience des mises à jour et des améliorations qui pourraient rendre cette technologie encore plus accessible et performante.

Related Links