HyperAIHyperAI
il y a 2 mois

Apprentissage profond des attributs faciaux dans la nature

Liu, Ziwei ; Luo, Ping ; Wang, Xiaogang ; Tang, Xiaoou
Apprentissage profond des attributs faciaux dans la nature
Résumé

La prédiction des attributs faciaux dans des conditions réelles est un défi en raison des variations complexes des visages. Nous proposons un nouveau cadre d'apprentissage profond pour la prédiction des attributs faciaux dans des conditions réelles. Ce cadre en cascade utilise deux CNNs, LNet et ANet, qui sont affinés conjointement avec des étiquettes d'attributs, mais pré-entraînés différemment. LNet est pré-entraîné sur de nombreuses catégories d'objets généraux pour la localisation faciale, tandis qu'ANet est pré-entraîné sur de nombreux identifiants de visages pour la prédiction des attributs. Ce cadre non seulement surpass les méthodes actuelles avec une marge importante, mais révèle également des faits précieux sur l'apprentissage de la représentation faciale.Il montre comment les performances de la localisation faciale (LNet) et de la prédiction des attributs (ANet) peuvent être améliorées par différentes stratégies de pré-entraînement.Il révèle que, bien que les filtres de LNet soient uniquement affinés avec des étiquettes d'attributs au niveau de l'image, leurs cartes de réponse sur l'ensemble des images indiquent fortement les emplacements des visages. Ce fait permet d'entraîner LNet pour la localisation faciale avec uniquement des annotations au niveau de l'image, sans nécessiter de boîtes englobantes ou de points clés du visage, qui sont requis par tous les travaux de reconnaissance d'attributs.Il démontre également que les neurones cachés de haut niveau d'ANet découvrent automatiquement des concepts sémantiques après le pré-entraînement sur de nombreux identifiants de visages, et ces concepts sont considérablement enrichis après l'affinage avec des étiquettes d'attributs. Chaque attribut peut être bien expliqué par une combinaison linéaire parcimonieuse de ces concepts.