Stratégies et jeux de données d'entraînement préalable pour l'apprentissage de la représentation faciale

Quelle est la meilleure méthode pour apprendre une représentation universelle du visage ? Les travaux récents sur l'apprentissage profond dans le domaine de l'analyse faciale se sont concentrés sur l'apprentissage supervisé pour des tâches spécifiques d'intérêt (par exemple, la reconnaissance faciale, la localisation des points de repère faciaux, etc.), mais ils ont négligé la question plus générale de savoir comment trouver une représentation faciale qui puisse être facilement adaptée à plusieurs tâches et ensembles de données d'analyse faciale. Dans ce but, nous apportons les quatre contributions suivantes : (a) Nous introduisons, pour la première fois, un banc d'évaluation complet pour l'apprentissage de la représentation faciale, composé de cinq tâches importantes d'analyse faciale. (b) Nous examinons systématiquement deux approches d'apprentissage à grande échelle appliquées aux visages : l'apprentissage supervisé et l'apprentissage non supervisé préalable. Il est important de noter que nos évaluations se concentrent sur le cas de l'apprentissage facial avec peu d'exemples (few-shot facial learning). (c) Nous étudions les propriétés importantes des ensembles de données d'entraînement, notamment leur taille et leur qualité (étiquetés, non étiquetés ou même non curatés). (d) Pour tirer nos conclusions, nous avons mené un très grand nombre d'expériences. Nos deux principaux résultats sont : (1) L'apprentissage non supervisé préalable sur des données complètement naturelles et non curatées fournit des améliorations cohérentes et, dans certains cas, significatives de la précision pour toutes les tâches faciales considérées. (2) De nombreux ensembles de données vidéo existants semblent présenter une grande quantité de redondance. Nous mettrons à disposition le code et les modèles pré-entraînés afin de faciliter les recherches futures.