Command Palette
Search for a command to run...
Entwirrte variationsbasierte Darstellung für heterogene Gesichtserkennung
Entwirrte variationsbasierte Darstellung für heterogene Gesichtserkennung
Xiang Wu Huaibo Huang Vishal M. Patel Ran He Zhenan Sun
Zusammenfassung
Die sichtbare (VIS) bis zur nahen Infrarot- (NIR) Bereichs-Gesichtserkennung ist ein herausforderndes Problem aufgrund der erheblichen Domänenunterschiede zwischen den Bereichen und des Mangels an ausreichenden Daten für das Training von cross-modalen Matching-Algorithmen. Bestehende Ansätze versuchen, dieses Problem durch die Synthese von sichtbaren Gesichtern aus NIR-Gesichtern, das Extrahieren domäneninvarianter Merkmale aus diesen Modalitäten oder das Projektieren heterogener Daten in einen gemeinsamen latenten Raum für cross-modales Matching zu lösen. In dieser Arbeit beschreiben wir einen anderen Ansatz, bei dem wir die Entwirrte Variationsdarstellung (Disentangled Variational Representation, DVR) für cross-modales Matching nutzen.Zunächst modellieren wir eine Gesichtsdarstellung mit intrinsischer Identitätsinformation und deren innerpersonellen Variationen. Durch die Untersuchung des entwirrten latenten Variablenraums wird eine variationsmäßige untere Schranke verwendet, um die approximierte A-posteriori-Verteilung für NIR- und VIS-Darstellungen zu optimieren. Zweitens zielen wir darauf ab, einen kompakteren und diskriminativeren entwirrten latenten Raum zu erhalten. Dazu legen wir eine Minimierung der Identitätsinformation für denselben Subjekt fest und führen eine gelockerte Korrelationsanpassungsbedingung zwischen den Modulationsvariationen von NIR und VIS ein.Es wird ein alternativer Optimierungsalgorithmus vorgeschlagen, der sowohl die Entwirrte Variationsdarstellung als auch das heterogene Gesichtserkennungsnetzwerk berücksichtigt. Die gegenseitige Förderung dieser beiden Teile reduziert effektiv die Domänenunterschiede zwischen NIR und VIS und mildert Overfitting. Ausführliche Experimente auf drei anspruchsvollen NIR-VIS heterogenen Gesichtserkennungsdatensätzen zeigen, dass das vorgeschlagene Verfahren erhebliche Verbesserungen gegenüber den Stand-of-the-Art-Methoden erreicht.