PyramidBox: Ein kontextgestützter One-Shot-Face-Detektor

Das Gesichtserkennung wurde seit vielen Jahren intensiv erforscht, und eine der verbleibenden Herausforderungen besteht darin, kleine, unscharfe und teilweise verdeckte Gesichter in unkontrollierten Umgebungen zu erkennen. In dieser Arbeit wird ein neuer kontextgestützter Ein-Schritt-Gesichtserkennungsdetektor vorgestellt, der als \emph{PyramidBox} bezeichnet wird, um das schwierige Problem der Gesichtserkennung anzugehen. Indem wir die Bedeutung des Kontexts betrachten, verbessern wir die Nutzung von kontextuellen Informationen in den folgenden drei Aspekten:Erstens entwerfen wir einen neuen Kontextanker, um durch eine halbüberwachte Methode das Lernen hochstufiger kontextueller Merkmale zu überwachen; diesen nennen wir PyramidAnchors. Zweitens schlagen wir ein Niedrigstufiges Merkmalspyramiden-Netzwerk (Low-level Feature Pyramid Network) vor, das ausreichende hochstufige kontextuelle semantische Merkmale und niedrigstufige Gesichtsmerkmale zusammenführt. Dies ermöglicht es dem PyramidBox auch, Gesichter aller Größen in einem Schritt vorherzusagen. Drittens führen wir eine kontextsensitive Struktur ein, um die Kapazität des Vorhersagenetzes zu erhöhen und so die endgültige Genauigkeit der Ausgabe zu verbessern.Darüber hinaus verwenden wir die Methode der Datenanker-Stichprobenziehung (Data-anchor-sampling), um die Trainingsbeispiele über verschiedene Skalen zu erweitern. Dies erhöht die Vielfalt der Trainingsdaten für kleinere Gesichter. Durch die Ausnutzung des Wertes des Kontexts erreicht PyramidBox eine herausragende Leistung im Vergleich zum Stand der Technik auf zwei gängigen Benchmarks für Gesichtserkennung: FDDB und WIDER FACE.Unser Code ist in PaddlePaddle verfügbar: \href{https://github.com/PaddlePaddle/models/tree/develop/fluid/face_detection}{\url{https://github.com/PaddlePaddle/models/tree/develop/fluid/face_detection}}.