Apprentissage adversarial en few-shot de modèles neuronaux de tête parlante réalistes

Plusieurs travaux récents ont démontré comment il est possible d'obtenir des images de têtes humaines hautement réalistes en formant des réseaux neuronaux convolutifs à les générer. Pour créer un modèle de tête parlante personnalisé, ces travaux nécessitent une formation sur un grand ensemble de données d'images d'une seule personne. Cependant, dans de nombreux scénarios pratiques, de tels modèles de tête parlante personnalisés doivent être appris à partir de quelques vues d'images d'une personne, voire même d'une seule image. Dans cet article, nous présentons un système doté d'une telle capacité de few-shot learning (apprentissage avec peu d'exemples). Ce système effectue une méta-apprentissage prolongé sur un grand ensemble de données vidéo, et par la suite est capable de formuler l'apprentissage few- et one-shot (apprentissage à partir d'un seul exemple) des modèles neuronaux de têtes parlantes pour des personnes inconnues précédemment comme des problèmes d'entraînement adversarial avec des générateurs et des discriminateurs à forte capacité. De manière cruciale, le système est capable d'initialiser les paramètres du générateur et du discriminateur de manière spécifique à chaque personne, ce qui permet une formation basée sur seulement quelques images et réalisée rapidement, malgré la nécessité d'ajuster plusieurs dizaines de millions de paramètres. Nous montrons que cette approche est capable d'apprendre des modèles de têtes parlantes hautement réalistes et personnalisés pour de nouvelles personnes ainsi que pour des portraits peints.