Faux jusqu’à y parvenir : analyse du visage dans des conditions réelles à l’aide uniquement de données synthétiques

Nous démontrons qu’il est possible de réaliser des tâches de vision par ordinateur liées au visage dans des conditions réelles (« in the wild ») en ne s’appuyant que sur des données synthétiques. La communauté a longtemps profité des avantages de la génération de données d’entraînement à l’aide de techniques graphiques, mais le fossé de domaine entre les données réelles et les données synthétiques est resté un défi majeur, en particulier pour les visages humains. Des chercheurs ont tenté de combler ce fossé par des méthodes telles que le mélange de données, l’adaptation de domaine ou l’apprentissage adversarial de domaine, mais nous montrons qu’il est possible de générer des données synthétiques avec un fossé de domaine minimal, de sorte que les modèles entraînés sur ces données se généralisent efficacement à des jeux de données réels en situation réelle. Nous décrivons comment combiner un modèle 3D paramétrique de visage généré de manière procédurale avec une vaste bibliothèque d’éléments manuellement conçus afin de produire des images d’entraînement d’une réalisme et d’une diversité sans précédent. Nous entraînons des systèmes d’apprentissage automatique pour des tâches liées au visage, telles que la localisation de points d’intérêt (landmark localization) et l’analyse sémantique du visage (face parsing), en montrant que les données synthétiques peuvent non seulement atteindre une précision équivalente aux données réelles, mais aussi ouvrir la voie à de nouvelles approches là où l’étiquetage manuel serait impossible.