Tiefe Perzeptive Abbildung für Kreuzmodale Gesichtserkennung

Die multimodale Gesichtserkennung zwischen dem thermischen und dem sichtbaren Spektrum ist eine hoch angestrebte Fähigkeit für Überwachungs- und Sicherheitsanwendungen zur Nachtzeit. Aufgrund eines sehr großen Modalitätsunterschieds ist die thermische-zu-sichtbare Gesichtserkennung eines der schwierigsten Probleme im Bereich der Gesichtsmatching. In dieser Arbeit stellen wir einen Ansatz vor, um diesen Modalitätsunterschied erheblich zu verringern. Unser Ansatz erfasst das stark nicht-lineare Verhältnis zwischen den beiden Modalitäten durch den Einsatz eines tiefen neuronalen Netzes. Unser Modell versucht, eine nicht-lineare Abbildung vom sichtbaren zum thermischen Spektrum zu lernen, während es die Identitätsinformation beibehält. Wir zeigen signifikante Leistungsverbesserungen auf drei anspruchsvollen thermisch-sichtbaren Gesichterdatensätzen. Der präsentierte Ansatz verbessert den Stand der Technik um mehr als 10 % im UND-X1-Datensatz und um mehr als 15-30 % im NVESD-Datensatz hinsichtlich der Rang-1-Identifikation. Unsere Methode kompensiert den Leistungseinbruch, der durch den Modalitätsunterschied verursacht wird, um mehr als 40 %.