HyperAIHyperAI
vor einem Monat

Neuronales Aggregationsnetzwerk für die Gesichtserkennung in Videos

Jiaolong Yang; Peiran Ren; Dongqing Zhang; Dong Chen; Fang Wen; Hongdong Li; Gang Hua
Neuronales Aggregationsnetzwerk für die Gesichtserkennung in Videos
Abstract

Dieses Papier stellt ein Neuronales Aggregationsnetzwerk (NAN) für die Gesichtserkennung in Videos vor. Das Netzwerk nimmt als Eingabe ein Gesichtsvideo oder eine Menge von Gesichtsbildern einer Person mit variabler Anzahl von Gesichtsbildern und erzeugt eine kompakte, feste Dimensionsdarstellung der Merkmale für die Erkennung. Das gesamte Netzwerk besteht aus zwei Modulen. Das Merkmalsverschlüsselungsmodul ist ein tiefer Konvolutionsneuronales Netzwerk (CNN), das jedes Gesichtsbild auf einen Merkmalsvektor abbildet. Das Aggregationsmodul besteht aus zwei Aufmerksamkeitsblöcken, die die Merkmalsvektoren adaptiv aggregieren, um einen einzelnen Merkmalsvektor innerhalb der durch sie aufgespannten konvexen Hülle zu bilden. Dank des Aufmerksamkeitsmechanismus ist die Aggregation unabhängig von der Bildreihenfolge. Unser NAN wird mit einem Standard-Klassifikations- oder Verifizierungsverlust ohne zusätzliche Supervisionszeichen trainiert, und wir haben festgestellt, dass es automatisch lernt, hochwertige Gesichtsbilder zu fördern und niedrigwertige Bilder wie unscharfe, verdeckte und unzureichend belichtete Gesichter abzulehnen. Die Experimente an den Benchmarks IJB-A, YouTube Face und Celebrity-1000 Video-Gesichtserkennung zeigen, dass es konsistent naive Aggregationsmethoden übertrifft und den aktuellen Stand der Technik in Bezug auf Genauigkeit erreicht.