Multispaltige Netze für die Gesichtserkennung

Das Ziel dieser Arbeit ist die mengenbasierte Gesichtserkennung, d.h. zu entscheiden, ob zwei Mengen von Gesichtsbildern dieselbe Person zeigen oder nicht. Üblicherweise wird der mengenweise Merkmalsdeskriptor als Durchschnitt der Deskriptoren der einzelnen Gesichtsbilder innerhalb der Menge berechnet. In diesem Artikel entwickeln wir eine Neuronalnetz-Architektur, die lernt, basierend auf sowohl "visueller" Qualität (Auflösung, Beleuchtung) als auch "inhaltlicher" Qualität (relative Bedeutung für die diskriminative Klassifizierung) zusammenzufassen. Zu diesem Zweck schlagen wir ein Mehrspalten-Netzwerk (Multicolumn Network, MN) vor, das eine Menge von Bildern (die Anzahl der Bilder in der Menge kann variieren) als Eingabe akzeptiert und lernt, einen festgelegten Merkmalsdeskriptor für die gesamte Menge zu berechnen. Um hochwertige Repräsentationen zu fördern, wird jedes einzelne Eingangsbild zunächst nach seiner "visuellen" Qualität gewichtet, die durch ein Modul zur Selbstbewertung der Qualität bestimmt wird, und anschließend dynamisch neu kalibriert basierend auf den "inhaltlichen" Qualitäten im Vergleich zu den anderen Bildern innerhalb der Menge. Beide Arten von Qualitäten werden während des Trainings für die mengenweise Klassifizierung implizit gelernt. Im Vergleich zu früheren Stand-der-Technik-Architekturen, die mit demselben Datensatz trainiert wurden (VGGFace2), zeigen unsere Mehrspalten-Netzwerke eine Verbesserung von 2-6 % bei den IARPA IJB Gesichtserkennungsbenchmarks und übertreffen alle Methoden auf diesen Benchmarks im aktuellen Stand der Technik.