ASFD: Automatischer und skalierbarer Gesichtsdetektor

Zusammen mit aktuellen multi-skaligen Detektoren haben Feature-Aggregation- und -Verbesserungs-(FAE-)Module erhebliche Leistungssteigerungen für moderne Objektdetektion erzielt. Allerdings zeigen diese handgefertigten FAE-Module inkonsistente Verbesserungen bei der Gesichtserkennung, was hauptsächlich auf den erheblichen Unterschied zwischen den Datensätzen für das Training und die Anwendung zurückzuführen ist – COCO im Vergleich zu WIDER Face. Um dieses Problem anzugehen, analysieren wir grundlegend den Einfluss der Datensatzverteilung und schlagen daher vor, mittels differenzierbarer Architektursuche eine effektive FAE-Architektur, die sogenannte AutoFAE, zu finden, die alle bisherigen FAE-Module in der Gesichtserkennung mit einer deutlichen Überlegenheit schlägt. Auf Basis der gefundenen AutoFAE und bestehender Backbone-Strukturen wird anschließend ein Supernet aufgebaut und trainiert, das automatisch eine Familie von Detektoren unter verschiedenen Komplexitätsbeschränkungen generiert. Umfangreiche Experimente an etablierten Benchmarks wie WIDER Face und FDDB belegen die state-of-the-art-Leistung-Effizienz-Trade-off-Fähigkeit der vorgeschlagenen automatischen und skalierbaren Gesichtsdetektor-Familie (ASFD). Insbesondere erreicht unser leistungsstarker ASFD-D6 auf dem WIDER Face-Testset eine AP von 96,7/96,2/92,1 und übertrifft damit den besten bisherigen Konkurrenten. Der leichtgewichtige ASFD-D0 benötigt lediglich etwa 3,1 ms auf der V100-GPU bei Bildern mit VGA-Auflösung, was mehr als 320 FPS entspricht.