MobileFaceNets : Réseaux de neurones convolutifs efficaces pour une vérification faciale précise en temps réel sur les appareils mobiles

Nous présentons une classe de modèles de réseaux de neurones convolutifs (CNN) extrêmement efficaces, les MobileFaceNets, qui utilisent moins d'un million de paramètres et sont spécifiquement conçus pour la vérification faciale en temps réel sur des appareils mobiles et embarqués avec une haute précision. Nous commençons par effectuer une analyse simple des faiblesses des réseaux mobiles courants pour la vérification faciale. Ces faiblesses ont été largement surmontées grâce à nos MobileFaceNets spécialement conçus. Dans les mêmes conditions expérimentales, nos MobileFaceNets atteignent une précision nettement supérieure ainsi qu'un accélération réelle plus de deux fois plus importante que celle de MobileNetV2. Après avoir été entraînés avec la perte ArcFace sur le MS-Celeb-1M raffiné, notre unique MobileFaceNet d'une taille de 4,0 Mo atteint une précision de 99,55 % sur LFW et un taux d'authentification (TAR) de 92,59 % à un taux d'erreur faussement acceptée (FAR) de 1e-6 sur MegaFace, ce qui est même comparable aux performances des modèles CNN avancés actuels dont la taille peut atteindre plusieurs centaines de Mo. Le modèle le plus rapide parmi les MobileFaceNets a un temps d'inférence réel de 18 millisecondes sur un téléphone mobile. Pour la vérification faciale, les MobileFaceNets offrent une efficacité nettement améliorée par rapport aux précédents modèles CNN mobiles les plus performants.