Command Palette
Search for a command to run...
Attributs faciaux par apprentissage profond dans le monde réel
Attributs faciaux par apprentissage profond dans le monde réel
Liu Ziwei Luo Ping Wang Xiaogang Tang Xiaoou
Résumé
La prédiction des caractéristiques faciales dans des conditions réelles (« in the wild ») est un défi en raison des variations complexes des visages. Nous proposons un nouveau cadre d’apprentissage profond pour la prédiction d’attributs faciaux dans des environnements non contrôlés. Ce cadre met en cascade deux réseaux de neurones convolutifs (CNN), LNet et ANet, qui sont ajustés finement conjointement à l’aide d’étiquettes d’attributs, mais pré-entraînés de manière différente. LNet est pré-entraîné à partir de grandes catégories d’objets généraux afin de localiser les visages, tandis qu’ANet est pré-entraîné à partir d’un grand nombre d’identités faciales pour la prédiction d’attributs. Ce cadre non seulement surpasser largement les méthodes de pointe, mais révèle également des faits significatifs concernant l’apprentissage des représentations faciales.(1) Il montre comment les performances de localisation faciale (LNet) et de prédiction d’attributs (ANet) peuvent être améliorées par des stratégies de pré-entraînement différentes.(2) Il révèle que, même si les filtres de LNet sont ajustés uniquement à l’aide d’étiquettes d’attributs au niveau de l’image, leurs cartes de réponses sur l’ensemble de l’image indiquent fortement les positions des visages. Ce phénomène permet d’entraîner LNet à la localisation faciale en utilisant uniquement des annotations au niveau de l’image, sans nécessiter de boîtes englobantes (bounding boxes) ou de points d’ancrage (landmarks) – des éléments indispensables dans toutes les approches antérieures de reconnaissance d’attributs.(3) Il démontre également que les neurones cachés de haut niveau de ANet découvrent automatiquement des concepts sémantiques après un pré-entraînement sur un grand nombre d’identités faciales, et que ces concepts sont considérablement enrichis après un ajustement fin avec des étiquettes d’attributs. Chaque attribut peut être expliqué de manière efficace par une combinaison linéaire creuse (sparse linear combination) de ces concepts.