Détection de visages avec intégration de bout en bout d'un ConvNet et d'un modèle 3D

Ce document présente une méthode de détection de visages dans des conditions réelles, qui intègre un réseau de neurones convolutifs (ConvNet) et un modèle 3D de visage moyen dans un cadre d'apprentissage discriminatif multitâche en bout à bout. Le modèle 3D de visage moyen est prédéfini et fixe (par exemple, nous avons utilisé celui fourni dans le jeu de données AFLW). Le ConvNet se compose de deux composants : (i) La composante de proposition de visages calcule des propositions de boîtes englobantes pour les visages en estimant les points clés du visage et les paramètres de transformation 3D (rotation et translation) pour chaque point clé prédit par rapport au modèle 3D de visage moyen. (ii) La composante de vérification des visages calcule les résultats de détection en élaguant et affinant les propositions basées sur la mise en commun des configurations des points clés du visage.La méthode proposée aborde deux problèmes liés à l'adaptation des réseaux ConvNet génériques d'avant-garde pour la détection de visages : (i) L'un est d'éliminer le design heuristique des boîtes ancre prédéfinies dans le réseau de propositions régionales (RPN) en exploitant un modèle 3D de visage moyen. (ii) L'autre est de remplacer la couche générique RoI (Region-of-Interest, région d'intérêt) par une couche de mise en commun des configurations pour respecter la structure sous-jacente des objets.La perte multitâche se compose de trois termes : la perte Softmax de classification et les pertes l1 lisses [14] concernant tant les points clés du visage que les boîtes englobantes des visages. Dans les expériences, notre ConvNet est formé uniquement sur le jeu de données AFLW et testé sur le banc d'essai FDDB avec ajustement fin et sur le banc d'essai AFW sans ajustement fin. La méthode proposée obtient des performances très compétitives par rapport à l'état actuel de l'art dans ces deux benchmarks.