Wan-Move : Génération vidéo contrôlable en mouvement par guidance de trajectoire latente
Wan-Move : Génération vidéo contrôlable en mouvement par guidance de trajectoire latente

Résumé
Nous présentons Wan-Move, un cadre simple et évolutif qui introduit un contrôle précis du mouvement dans les modèles génératifs vidéo. Les méthodes existantes de contrôle du mouvement souffrent généralement d’une granularité de contrôle trop grossière et d’une capacité d’évolutivité limitée, rendant leurs sorties insuffisantes pour une utilisation pratique. Nous réduisons cet écart en atteignant un contrôle précis et de haute qualité du mouvement. Notre idée centrale consiste à rendre directement les caractéristiques d’entrée originales sensibles au mouvement afin de guider la synthèse vidéo. Pour cela, nous représentons d’abord les mouvements des objets par des trajectoires de points denses, permettant un contrôle fine-grained de la scène. Nous projetons ensuite ces trajectoires dans l’espace latent et propageons les caractéristiques de la première image le long de chaque trajectoire, produisant ainsi une carte de caractéristiques spatio-temporelles alignées qui indique comment chaque élément de la scène doit se déplacer. Cette carte de caractéristiques sert de condition latente mise à jour, intégrée naturellement dans un modèle image-to-video disponible « out-of-the-box », comme Wan-I2V-14B, comme guidance du mouvement, sans aucune modification d’architecture. Cette approche élimine la nécessité d’encodeurs de mouvement auxiliaires et rend le fine-tuning des modèles de base facilement évolutif. Grâce à une formation à grande échelle, Wan-Move génère des vidéos de 5 secondes en résolution 480p dont la qualité du contrôle du mouvement est comparable à celle du Motion Brush commercial de Kling 1.5 Pro, selon des études utilisateurs. Pour soutenir une évaluation complète, nous avons également conçu MoveBench, un benchmark rigoureusement constitué, incluant diverses catégories de contenu et des annotations vérifiées hybrides. Il se distingue par un volume de données plus important, des durées vidéo plus longues et des annotations de mouvement de haute qualité. Des expériences étendues sur MoveBench et sur des jeux de données publics montrent de manière cohérente la supériorité de Wan-Move en matière de qualité du mouvement. Le code, les modèles et les données du benchmark sont rendus disponibles publiquement.
Dépôts de code
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.