Détection rapide de visages par convolution profonde dans des conditions réelles en exploitant l'extraction d'exemples difficiles
La détection faciale constitue une tâche fondamentale d’analyse d’informations visuelles en apprentissage automatique. L’émergence des grands ensembles de données (Big Data) a entraîné l’accumulation d’une quantité massive de données visuelles nécessitant une analyse précise et rapide. Les méthodes d’apprentissage profond se révèlent particulièrement efficaces pour cette tâche, car l’entraînement sur de grandes quantités de données présentant une forte variabilité a démontré une amélioration significative de leur performance. Toutefois, ces méthodes exigent souvent des calculs coûteux et conduisent à des modèles de grande complexité. Lorsque l’objectif est d’analyser le contenu visuel dans des jeux de données massifs, la complexité du modèle devient un facteur déterminant du succès du système. Dans cet article, un réseau de neurones convolutifs (CNN) léger est proposé pour la détection faciale, conçu pour minimiser les temps d’entraînement et de test, tout en surpassant les réseaux convolutifs profonds précédemment publiés en termes de performance et d’efficacité. Ce modèle ne comporte que 76 375 paramètres libres, contrairement aux modèles concurrents qui comptent généralement des millions de paramètres. Pour entraîner ce réseau léger sans compromettre son efficacité, une nouvelle méthode d’entraînement basée sur le mining progressif d’exemples positifs et de négatifs difficiles est introduite, et a été montrée pour améliorer de manière significative la vitesse et la précision de l’entraînement. En outre, un réseau profond distinct a été entraîné pour détecter des caractéristiques faciales individuelles, et un modèle combinant les sorties des deux réseaux a été développé et évalué. Ces deux approches sont capables de détecter des visages même en cas de forte occlusion et de variations de pose non contraintes, et répondent aux défis posés par les grandes variations présentes dans les applications réelles à temps réel de détection faciale à grande échelle.