GhostVLAD für mengenbasierte Gesichtserkennung

Das Ziel dieser Arbeit ist es, eine kompakte Darstellung von Bildmengen für die vorlagenbasierte Gesichtserkennung zu erlernen. Wir leisten folgende Beiträge: Erstens schlagen wir eine Netzwerkarchitektur vor, die die durch tiefgreifende Faltungsneuronale Netze (Deep Convolutional Neural Networks) erzeugten Gesichtsdeskriptoren in eine kompakte, feste Länge aufnehmt und einbettet. Diese kompakte Darstellung erfordert minimalen Speicherplatz und ermöglicht effiziente Ähnlichkeitsberechnungen. Zweitens stellen wir eine neuartige GhostVLAD-Schicht vor, die {\em Phantomcluster} (ghost clusters) enthält, die nicht zur Aggregation beitragen. Wir zeigen, dass automatisch ein Qualitätsgewichtung der Eingangsgesichter entsteht, sodass informativere Bilder mehr beitragen als solche mit geringer Qualität, und dass die Phantomcluster die Fähigkeit des Netzwerks verbessern, schlecht qualitativ ausfallende Bilder zu verarbeiten. Drittens untersuchen wir, wie die Dimension der Eingangsmerkmale, die Anzahl der Cluster und verschiedene Trainingsmethoden die Erkennungsleistung beeinflussen. Auf Basis dieser Analyse trainieren wir ein Netzwerk, das den aktuellen Stand der Technik im IJB-B-Gesichtserkennungsdatensatz weit übertrifft. Dies ist aktuell eines der anspruchsvollsten öffentlichen Benchmarks, und wir übertreffen den Stand der Technik sowohl bei den Identifikations- als auch bei den Verifikationsprotokollen.