Command Palette
Search for a command to run...
CNN de Wasserstein : apprentissage de caractéristiques invariantes pour la reconnaissance faciale NIR-VIS
CNN de Wasserstein : apprentissage de caractéristiques invariantes pour la reconnaissance faciale NIR-VIS
He Ran Wu Xiang Sun Zhenan Tan Tieniu
Résumé
La reconnaissance faciale hétérogène (HFR) vise à associer des images faciales acquises à partir de modalités de capteurs différentes, avec des applications critiques dans les domaines de la forensic, de la sécurité et du secteur commercial. Toutefois, la HFR constitue un problème bien plus difficile que la reconnaissance faciale classique, en raison des fortes variations intra-classe observées sur les images faciales hétérogènes et du faible nombre d’échantillons disponibles pour les paires d’images faciales issues de modalités différentes. Ce papier propose une nouvelle approche, nommée Wasserstein CNN (réseaux de neurones convolutifs, ou WCNN pour abréger), destinée à apprendre des caractéristiques invariantes entre images faciales en lumière infrarouge proche (NIR) et images visuelles (VIS), c’est-à-dire pour la reconnaissance faciale NIR-VIS. Les couches basses du WCNN sont entraînées à l’aide d’images faciales largement disponibles dans le spectre visible. La couche haute est divisée en trois parties : une couche NIR, une couche VIS et une couche partagée NIR-VIS. Les deux premières couches visent à apprendre des caractéristiques spécifiques à chaque modalité, tandis que la couche partagée NIR-VIS est conçue pour apprendre un sous-espace de caractéristiques invariantes aux modalités. La distance de Wasserstein est introduite dans la couche partagée NIR-VIS afin de mesurer la dissimilarité entre les distributions de caractéristiques hétérogènes. Ainsi, l’apprentissage par WCNN vise à minimiser la distance de Wasserstein entre la distribution NIR et la distribution VIS, afin d’obtenir une représentation profonde invariante des images faciales hétérogènes. Pour éviter le surapprentissage sur des jeux de données hétérogènes de petite taille, un prior de corrélation est introduit sur les couches entièrement connectées du réseau WCNN, afin de réduire l’espace des paramètres. Ce prior est mis en œuvre à l’aide d’une contrainte de faible rang dans un réseau end-to-end. La formulation conjointe conduit à une minimisation alternée pour la représentation des caractéristiques profondes lors de l’entraînement, et à un calcul efficace pour les données hétérogènes lors du test. Des expériences étendues sur trois bases de données exigeantes de reconnaissance faciale NIR-VIS démontrent de manière significative l’avantage du Wasserstein CNN par rapport aux méthodes de pointe actuelles.