SeesawFaceNets : modèle de vérification faciale épuré et robuste pour plateforme mobile

Les Réseaux Neuronaux Convolutifs Profonds (DCNNs) sont devenus la solution la plus largement utilisée pour la plupart des tâches liées à la vision par ordinateur, et l'une des applications les plus importantes est la vérification faciale. Grâce à leurs performances de haute précision, les modèles de vérification faciale profonde, dont l'étape d'inférence se déroule sur une plateforme cloud via Internet, jouent un rôle clé dans la plupart des scénarios pratiques. Cependant, deux problèmes critiques subsistent : premièrement, la protection de la vie privée individuelle peut ne pas être suffisamment garantie puisqu'il est nécessaire de télécharger sa photo personnelle et d'autres informations privées vers le backend cloud en ligne. Deuxièmement, tant l'étape d'entraînement que celle d'inférence sont chronophages et peuvent affecter l'expérience client, particulièrement lorsque la vitesse de connexion Internet n'est pas stable ou dans des zones reculées où la réception mobile est médiocre, mais aussi dans les villes où les bâtiments et autres structures peuvent brouiller les signaux mobiles.Ainsi, concevoir des réseaux légers avec une faible exigence en mémoire et un coût computationnel réduit constitue l'une des solutions les plus pratiques pour la vérification faciale sur plateforme mobile. Dans cet article, nous proposons un nouveau réseau mobile nommé SeesawFaceNets, un modèle simple mais efficace destiné au déploiement productif de la reconnaissance faciale sur les appareils mobiles. Des résultats expérimentaux approfondis ont montré que notre modèle proposé SeesawFaceNets surpassait le modèle de référence MobilefaceNets avec seulement 66\% (146M contre 221M MAdds) du coût computationnel, une taille de lot plus petite et moins d'étapes d'entraînement. De plus, SeesawFaceNets atteint des performances comparables à celles d'autres modèles SOTA comme Mobiface avec seulement 54.2\% (1.3M contre 2.4M) des paramètres et 31.6\% (146M contre 462M MAdds) du coût computationnel. Il est également finalement compétitif face aux grandes architectures de réseaux neuronaux pour la reconnaissance faciale sur tous les 5 jeux de données publics listés, avec 6.5\% (4.2M contre 65M) des paramètres et 4.35\% (526M contre 12G MAdds) du coût computationnel.