MogFace: Hin zum tieferen Verständnis der Gesichtserkennung

Dank der wegweisenden Architektur generischer Objektdetektoren wurden erhebliche Fortschritte im Bereich der Gesichtserkennung erzielt. Typischerweise übernehmen die Architekturen der Backbone-Struktur, der Feature-Pyramiden-Schicht und des Detektionskopfmoduls innerhalb des Gesichtsdetektors wesentliche Erkenntnisse aus der Forschung zu allgemeinen Objektdetektoren. Dennoch bleiben mehrere effektive Methoden – darunter die Label-Zuweisungsstrategie und die Skalenlevel-basierte Datenaugmentation – bei direkter Anwendung auf Gesichtsdetektoren nicht konsistent überlegen. Konkret hängt die erste Strategie von einer großen Anzahl von Hyperparametern ab, während die zweite unter dem Problem der Skalendistributionsverzerrung zwischen unterschiedlichen Detektionsaufgaben leidet, was beide ihre Generalisierungsfähigkeit einschränkt. Darüber hinaus ist es für nachgeschaltete Gesichtsaufgaben unerlässlich, genaue Gesichts-Bounding-Boxes bereitzustellen, weshalb der Gesichtsdetektor dringend die Eliminierung von Fehlalarmen erfordert. Folglich sind praktikable Lösungen für die Label-Zuweisung, die skalenbasierte Datenaugmentation und die Reduzierung von Fehlalarmen notwendig, um die Leistung von Gesichtsdetektoren weiter zu verbessern. In diesem Artikel konzentrieren wir uns auf die Lösung der drei oben genannten Herausforderungen, die bisherige Ansätze nur unzureichend bewältigen können, und stellen einen neuartigen Gesichtsdetektor namens MogFace vor. In MogFace werden drei zentrale Komponenten vorgeschlagen, um die Leistung von Gesichtsdetektoren zu steigern: die adaptive, online inkrementelle Anchor-Mining-Strategie, die selektive Skalenverstärkungsstrategie und das hierarchische kontextbewusste Modul. Abschließend ist, soweit uns bekannt ist, MogFace der derzeit beste Gesichtsdetektor auf der Wider Face Leaderboard und erreicht in allen verschiedenen Test-Szenarien die Spitzenpositionen. Der Quellcode ist unter \url{https://github.com/damo-cv/MogFace} verfügbar.