SeesawFaceNets: spärliches und robustes Gesichtserkennungsmodell für mobile Plattformen

Tiefe Faltungsneuronale Netze (DCNNs) sind inzwischen die am häufigsten verwendete Lösung für die meisten Aufgaben im Bereich der Computer Vision, und eine der wichtigsten Anwendungsszenarien ist die Gesichtserkennung. Dank ihrer hohen Genauigkeit spielen tiefere Gesichtserkennungsmodelle, deren Inferenzphase über das Internet auf Cloud-Plattformen durchgeführt wird, eine Schlüsselrolle in den meisten praktischen Szenarien. Allerdings bestehen zwei kritische Probleme: Erstens kann die individuelle Privatsphäre nicht ausreichend geschützt werden, da Benutzer ihre persönlichen Fotos und andere vertrauliche Informationen an den Online-Cloud-Backend hochladen müssen. Zweitens sind sowohl das Training als auch die Inferenzphase zeitaufwendig, und die Latenz kann sich negativ auf das Kundenerlebnis auswirken, insbesondere wenn die Internetverbindung nicht stabil ist oder in abgelegenen Gebieten mit schlechtem Mobilfunkempfang, sowie in Städten, wo Gebäude und andere Konstruktionen Mobilfunksignale stören können.Daher ist die Entwicklung von leichten Netzwerken mit geringem Speicherbedarf und Rechenkosten eine der praktischsten Lösungen für die Gesichtserkennung auf mobilen Plattformen. In dieser Arbeit wird ein neues mobiles Netzwerk namens SeesawFaceNets vorgeschlagen, ein einfaches aber effektives Modell zur produktiven Implementierung der Gesichtserkennung auf Mobilgeräten. Dichte experimentelle Ergebnisse zeigen, dass unser vorgeschlagenes Modell SeesawFaceNets das Basismodell MobileFaceNets übertreffen kann, wobei es nur {\bf 66\%} (146M gegenüber 221M MAdds) des Rechenaufwands benötigt, kleinere Batchgrößen und weniger Trainingsiterationen erfordert. Darüber hinaus erreichen SeesawFaceNets vergleichbare Leistungen wie andere state-of-the-art Modelle wie z.B. Mobiface mit nur {\bf 54.2\%} (1.3M gegenüber 2.4M) Parametern und {\bf 31.6\%} (146M gegenüber 462M MAdds) des Rechenaufwands. Schließlich zeigt sich SeesawFaceNets auch wettbewerbsfähig gegenüber großen tiefen Netzwerken für Gesichtserkennung auf allen fünf öffentlich zugänglichen Validierungsdatensätzen, wobei es nur {\bf 6.5\%} (4.2M gegenüber 65M) der Parameter und {\bf 4.35\%} (526M gegenüber 12G MAdds) des Rechenaufwands benötigt.