Wasserstein-CNN: Lernen von invarianten Merkmalen für die NIR-VIS Gesichtserkennung

Die heterogene Gesichtserkennung (HFR) strebt danach, Gesichtsbilder, die aus verschiedenen Sensormodalitäten erfasst wurden, in forensischen, sicherheitsrelevanten und kommerziellen Bereichen mit lebenswichtigen Anwendungen abzugleichen. Allerdings ist HFR ein viel schwierigeres Problem als die traditionelle Gesichtserkennung aufgrund der großen innerklasslichen Variationen von heterogenen Gesichtsbildern und der begrenzten Anzahl von Trainingsbeispielen für cross-modal gesichtsbildpaare. In dieser Arbeit wird ein neuer Ansatz vorgeschlagen, nämlich das Wasserstein CNN (Convolutional Neural Networks oder WCNN kurz), um invariante Merkmale zwischen Nahinfrarot- und sichtbaren Gesichtsbildern (NIR-VIS Gesichtserkennung) zu lernen. Die niedrigstufigen Schichten des WCNN werden mit im sichtbaren Spektrum weit verbreiteten Gesichtsbildern trainiert. Die hochstufige Schicht wird in drei Teile unterteilt: eine NIR-Schicht, eine VIS-Schicht und eine NIR-VIS geteilte Schicht. Die ersten beiden Schichten sind darauf ausgelegt, modalspezifische Merkmale zu lernen, während die NIR-VIS geteilte Schicht entwickelt wurde, um einen modalinvarianten Merkmalsraum zu erlernen. Der Wasserstein-Abstand wird in die NIR-VIS geteilte Schicht eingeführt, um die Dissimilarität zwischen heterogenen Merkmalsverteilungen zu messen. Das Lernen des W-CNN zielt daher darauf ab, den Wasserstein-Abstand zwischen der NIR-Verteilung und der VIS-Verteilung zu minimieren, um eine invariante tiefere Darstellung von heterogenen Gesichtsbildern zu erreichen. Um das Überanpassungsproblem bei kleinerem heterogenen Gesichtsdatensatz zu vermeiden, wird ein Korrelationsprior auf den vollständig verbundenen Schichten des WCNN-Netzes eingeführt, um den Parameterraum zu reduzieren. Dieser Prior wird durch eine Rangbeschränkung in einem end-to-end Netzwerk implementiert. Die gemeinsame Formulierung führt während des Trainings zur alternierenden Minimierung für die tiefe Merkmalsdarstellung und während des Testens zu einer effizienten Berechnung für heterogene Daten. Ausführliche Experimente anhand dreier anspruchsvoller NIR-VIS-Gesichtserkennungsdatenbanken zeigen die signifikante Überlegenheit des Wasserstein CNN gegenüber den bislang besten Methoden.