Reconnaissance faciale robuste à la pose par cartographie équivariante profonde résiduelle

La reconnaissance faciale connaît un succès exceptionnel grâce à l'émergence de l'apprentissage profond. Cependant, de nombreux modèles contemporains de reconnaissance faciale présentent encore des performances relativement médiocres lors du traitement des visages en profil par rapport aux visages frontaux. Une raison clé est que le nombre de visages frontaux et de visages en profil dans les ensembles d'entraînement est très déséquilibré – il existe beaucoup plus d'échantillons d'entraînement frontaux que de profils. De plus, il est intrinsèquement difficile d'apprendre une représentation profonde qui soit géométriquement invariante face à de grandes variations de pose. Dans cette étude, nous formulons l'hypothèse qu'il existe une correspondance inhérente entre les visages frontaux et les visages en profil, et par conséquent, leur disparité dans l'espace de représentation profonde peut être comblée par une carte équivariante. Pour exploiter cette correspondance, nous proposons un nouveau bloc Deep Residual EquivAriant Mapping (DREAM), capable d'ajouter adaptivement des résidus à la représentation profonde d'entrée afin de transformer une représentation de visage en profil en une pose canonique qui simplifie la reconnaissance. Le bloc DREAM améliore constamment les performances de la reconnaissance faciale en profil pour de nombreux réseaux profonds puissants, y compris les modèles ResNet, sans augmenter délibérément les données d'entraînement des visages en profil. Ce bloc est facile à utiliser, léger et peut être mis en œuvre avec un surcoût computationnel négligeable.