il y a 9 jours

L2CS-Net : Estimation fine du regard dans des environnements non contraints

Ahmed A.Abdelrahman, Thorsten Hempel, Aly Khalifa, Ayoub Al-Hamadi

Résumé

Le regard humain constitue un indicateur essentiel utilisé dans diverses applications, telles que l’interaction homme-robot ou la réalité virtuelle. Récemment, les approches basées sur les réseaux de neurones convolutifs (CNN) ont permis des progrès notables dans la prédiction de la direction du regard. Toutefois, l’estimation du regard dans des conditions naturelles (in-the-wild) reste un défi majeur en raison de la diversité de l’apparence des yeux, des conditions d’éclairage variables, ainsi que de la variabilité des poses de tête et des directions du regard. Dans cet article, nous proposons un modèle robuste basé sur les CNN pour prédire le regard dans des environnements non contraints. Nous introduisons une stratégie de régression séparée pour chaque angle de regard afin d’améliorer la précision de la prédiction par angle, ce qui contribue à une meilleure performance globale. Par ailleurs, nous utilisons deux pertes identiques, une pour chaque angle, afin d’améliorer l’apprentissage du réseau et de renforcer sa généralisation. Nous évaluons notre modèle sur deux jeux de données populaires recueillis dans des conditions non contraintes. Le modèle proposé atteint une précision de pointe de 3,92° et 10,41° respectivement sur les jeux de données MPIIGaze et Gaze360. Le code source de notre travail est mis à disposition librement sur GitHub à l’adresse suivante : https://github.com/Ahmednull/L2CS-Net.