PocketNet: Extrem leichte Gesichtserkennungsnetzwerk mittels neuronaler Architektursuche und mehrstufiger Wissensdistillation

Tiefe neuronale Netze sind rasch zur Hauptmethode für die Gesichtserkennung (FR) geworden. Allerdings begrenzt dies die Bereitstellung solcher Modelle, die eine extrem große Anzahl von Parametern enthalten, auf eingebettete und günstige Geräte. In dieser Arbeit stellen wir eine extrem leichte und genaue FR-Lösung vor, nämlich PocketNet. Wir nutzen die Suchtechniken für neuronale Architekturen (NAS), um eine neue Familie von leichten, gesichtsspezifischen Architekturen zu entwickeln. Darüber hinaus schlagen wir ein neues Trainingsparadigma vor, das auf Wissensdistillierung (KD) basiert, nämlich die mehrstufige KD, bei der das Wissen vom Lehrermodell zum Schülermodell in verschiedenen Phasen der Trainingsreife transferiert wird. Wir führen eine detaillierte Abstraktionsstudie durch, die sowohl die Richtigkeit der Verwendung von NAS für die spezifische Aufgabe der FR im Vergleich zur allgemeinen Objektklassifikation als auch die Vorteile unseres vorgeschlagenen mehrstufigen KD nachweist. Wir präsentieren eine umfangreiche experimentelle Bewertung und Vergleiche mit den aktuellen kompakten FR-Modellen (SOTA) auf neun verschiedenen Benchmarks, einschließlich groß angelegter Evaluationsbenchmarks wie IJB-B, IJB-C und MegaFace. PocketNets haben bei gleicher Modellkomplexität stets den Stand der Technik (SOTA) in der FR-Leistung auf neun Hauptbenchmarks verbessert. Mit 0,92 Mio. Parametern erreichte unser kleinstes Netzwerk PocketNetS-128 sehr wettbewerbsfähige Ergebnisse im Vergleich zu jüngsten SOTA-kompakten Modellen mit bis zu 4 Mio. Parametern.