Überwachtes Transformer-Netzwerk für effiziente Gesichtserkennung

Große Pose-Variationen bleiben eine Herausforderung für die Gesichtserkennung in der Realwelt. Wir schlagen ein neues kaskadiertes Faltungsneuronales Netzwerk (Convolutional Neural Network) vor, das als Supervised Transformer Network bezeichnet wird, um dieser Herausforderung zu begegnen. Die erste Stufe ist ein mehrfach ausgerichtetes Region Proposal Network (RPN), das gleichzeitig Kandidaten-Gesichtsbereiche und zugehörige Gesichtspunkte (facial landmarks) vorhersagt. Die Kandidatenbereiche werden dann durch Abbildung der erkannten Gesichtspunkte auf ihre kanonischen Positionen verzerrt, um die Gesichtsmuster besser zu normalisieren. In der zweiten Stufe, einem RCNN, wird dann überprüft, ob die verzerrten Kandidatenbereiche gültige Gesichter sind oder nicht. Wir führen ein end-to-end-Lernen des kaskadierten Netzes durch, einschließlich der Optimierung der kanonischen Positionen der Gesichtspunkte. Dieses überwachte Lernen der Transformationen wählt automatisch die beste Skala zur Unterscheidung von Gesichts- und Nicht-Gesichtsmustern. Durch Kombination von Merkmalskarten aus beiden Stufen des Netzes erreichen wir Top-Werte bei der Erkennungsgenauigkeit auf mehreren öffentlichen Benchmarks. Für Echtzeit-Leistung führen wir das kaskadierte Netz nur auf Interessensregionen aus, die von einem Boosting-Cascade-Gesichtserkennungsverfahren erzeugt werden. Unser Detektor läuft mit 30 FPS auf einem einzelnen CPU-Kern für ein VGA-Auflösungs-Bild.