Command Palette
Search for a command to run...
Wasserstein-CNN: Lernen invarianten Merkmale für die NIR-VIS-Gesichtserkennung
Wasserstein-CNN: Lernen invarianten Merkmale für die NIR-VIS-Gesichtserkennung
He Ran Wu Xiang Sun Zhenan Tan Tieniu
Zusammenfassung
Die heterogene Gesichtserkennung (HFR) zielt darauf ab, Gesichtsaufnahmen, die aus verschiedenen Sensormodalitäten stammen, miteinander zu vergleichen, und hat mission-kritische Anwendungen in Bereichen wie Forensik, Sicherheit und der kommerziellen Nutzung. Allerdings stellt die HFR ein weitaus schwierigeres Problem dar als die herkömmliche Gesichtserkennung, bedingt durch die starken intra-klassischen Variationen bei heterogenen Gesichtsbildern sowie die begrenzte Anzahl an Trainingsbeispielen für Paare von Gesichtsbildern aus verschiedenen Modalitäten. In diesem Artikel wird ein neuartiger Ansatz vorgestellt, der als Wasserstein-CNN (Convolutional Neural Networks, kurz WCNN) bezeichnet wird, um invarianten Merkmale zwischen Nahinfrarot- (NIR) und sichtbarem Licht (VIS)-Gesichtsbildern zu lernen (d. h. NIR-VIS-Gesichtserkennung). Die tiefen Schichten des WCNN werden mit zahlreich verfügbaren Gesichtsbildern im sichtbaren Spektrum trainiert. Die oberen Schichten sind in drei Teile unterteilt: eine NIR-Schicht, eine VIS-Schicht und eine gemeinsame NIR-VIS-Schicht. Die ersten beiden Schichten sollen modality-spezifische Merkmale lernen, während die gemeinsame NIR-VIS-Schicht speziell darauf ausgelegt ist, eine modality-invariante Merkmalsunterraumstruktur zu erlernen. Die Wasserstein-Distanz wird in der gemeinsamen NIR-VIS-Schicht eingeführt, um die Dissimilarität zwischen den heterogenen Merkmalsverteilungen zu messen. Somit zielt die WCNN-Lernstrategie darauf ab, die Wasserstein-Distanz zwischen der NIR- und der VIS-Verteilung zu minimieren, um eine invariante tiefe Merkmalsdarstellung für heterogene Gesichtsbilder zu erreichen. Um das Überanpassungsrisiko bei kleinskaligen heterogenen Gesichtsdatensätzen zu vermeiden, wird ein Korrelationsprior in die vollständig verbundenen Schichten des WCNN-Netzwerks integriert, um den Parameterraum zu reduzieren. Dieser Prior wird durch eine Rangbeschränkung in einem end-to-end-Netzwerk realisiert. Die gemeinsame Formulierung führt zu einer alternierenden Minimierung während des Trainings zur tiefen Merkmalsdarstellung und zu einer effizienten Berechnung für heterogene Daten im Teststadium. Umfassende Experimente an drei anspruchsvollen NIR-VIS-Gesichtserkennungsdatenbanken belegen die deutliche Überlegenheit des Wasserstein-CNN gegenüber aktuellen State-of-the-Art-Methoden.