RT-GENE : Estimation en temps réel du regard oculaire dans des environnements naturels

Dans ce travail, nous abordons le problème de l’estimation robuste du regard dans des environnements naturels. Des distances importantes entre la caméra et le sujet, ainsi que des variations élevées de l’orientation de la tête et des angles de regard, sont fréquentes dans de tels environnements. Cela entraîne deux principaux défauts des méthodes actuelles d’estimation du regard : une annotation du regard vrai (ground truth) difficile à obtenir, et une précision d’estimation réduite lorsque la résolution des images diminue avec la distance. Nous enregistrons tout d’abord un nouveau jeu de données comprenant des images variées de regard et d’orientation de la tête dans un environnement naturel. Pour résoudre le problème d’annotation du vrai regard, nous mesurons l’orientation de la tête à l’aide d’un système de capture de mouvement et le regard à l’aide de lunettes de suivi oculaire portables. Nous appliquons une méthode d’interpolation sémantique d’images à la zone couverte par les lunettes afin de réduire l’écart entre les images d’entraînement et celles de test, en éliminant l’obstruction causée par les lunettes. Nous proposons également un nouvel algorithme en temps réel basé sur des réseaux de neurones profonds à convolution (deep convolutional neural networks) dotés d’une capacité accrue, permettant de faire face à la diversité des images du nouveau jeu de données. Des expérimentations sont menées avec cette architecture sur plusieurs jeux de données variés d’estimation du regard, y compris notre propre jeu de données, ainsi que dans des évaluations croisées entre jeux de données. Nous démontrons des performances de pointe en termes de précision d’estimation dans toutes les expérimentations, et l’architecture se révèle efficace même sur des images de faible résolution.