HyperAIHyperAI
il y a 2 mois

Wasserstein CNN : Apprentissage de caractéristiques invariantes pour la reconnaissance faciale NIR-VIS

He, Ran ; Wu, Xiang ; Sun, Zhenan ; Tan, Tieniu
Wasserstein CNN : Apprentissage de caractéristiques invariantes pour la reconnaissance faciale NIR-VIS
Résumé

La reconnaissance faciale hétérogène (RFH) vise à apparer des images faciales acquises par différents modes de capteurs, avec des applications critiques dans les domaines de la forensique, de la sécurité et du commerce. Cependant, la RFH est un problème beaucoup plus complexe que la reconnaissance faciale traditionnelle en raison des grandes variations intra-classe des images faciales hétérogènes et du nombre limité d'échantillons d'entraînement de paires d'images faciales inter-modales. Cet article propose une nouvelle approche appelée Wasserstein CNN (réseaux neuronaux convolutifs, ou WCNN pour faire court) pour apprendre des caractéristiques invariantes entre les images faciales en lumière proche infrarouge et les images visibles (c'est-à-dire la reconnaissance faciale NIR-VIS).Les couches de bas niveau du WCNN sont entraînées avec des images faciales largement disponibles dans le spectre visible. La couche de haut niveau est divisée en trois parties : la couche NIR, la couche VIS et la couche partagée NIR-VIS. Les deux premières couches ont pour objectif d'apprendre des caractéristiques spécifiques à chaque mode, tandis que la couche partagée NIR-VIS est conçue pour apprendre un sous-espace de caractéristiques invariantes aux modes.La distance de Wasserstein est introduite dans la couche partagée NIR-VIS pour mesurer la dissimilarité entre les distributions de caractéristiques hétérogènes. Ainsi, l'apprentissage du WCNN vise à minimiser la distance de Wasserstein entre les distributions NIR et VIS afin d'obtenir une représentation profonde et invariante des caractéristiques des images faciales hétérogènes. Pour éviter le problème de surapprentissage sur des données hétérogènes à petite échelle, une contrainte a priori de corrélation est introduite sur les couches entièrement connectées du réseau WCNN afin de réduire l'espace paramétrique. Cette contrainte a priori est mise en œuvre par une contrainte de rang faible au sein d'un réseau end-to-end.La formulation conjointe conduit à une minimisation alternée pour la représentation profonde des caractéristiques lors de l'entraînement et à un calcul efficace pour les données hétérogènes lors du test. Des expériences approfondies sur trois bases de données difficiles pour la reconnaissance faciale NIR-VIS démontrent l'avantage significatif du Wasserstein CNN par rapport aux méthodes actuelles les plus avancées.

Wasserstein CNN : Apprentissage de caractéristiques invariantes pour la reconnaissance faciale NIR-VIS | Articles de recherche récents | HyperAI