Stand-In : un contrôle d'identité léger et plug-and-play pour la génération vidéo

La génération de vidéos humaines de haute fidélité correspondant à une identité spécifiée par l’utilisateur est un enjeu crucial mais difficile dans le domaine de l’intelligence artificielle générative. Les méthodes existantes reposent souvent sur un nombre excessif de paramètres d’entraînement et manquent de compatibilité avec d’autres outils AIGC. Dans cet article, nous proposons Stand-In, un cadre léger et facile à intégrer pour la préservation de l’identité dans la génération vidéo. Plus précisément, nous introduisons une branche d’image conditionnelle dans un modèle pré-entraîné de génération vidéo. Le contrôle d’identité est réalisé grâce à des mécanismes d’attention auto-contrainte associés à une cartographie de position conditionnelle, et peut être appris efficacement à partir de seulement 2 000 paires d’exemples. Malgré l’ajout et l’entraînement de seulement environ 1 % de paramètres supplémentaires, notre cadre obtient des résultats remarquables en termes de qualité vidéo et de fidélité de l’identité, dépassant les méthodes basées sur l’entraînement complet des paramètres. En outre, notre cadre peut être intégré de manière transparente à d’autres tâches, telles que la génération vidéo pilotée par un sujet, la génération vidéo basée sur une posture de référence, la stylisation ou le remplacement facial.