ETH-XGaze : Un jeu de données à grande échelle pour l’estimation du regard sous des poses extrêmes de la tête et des variations de regard

L’estimation du regard est une tâche fondamentale dans de nombreuses applications de vision par ordinateur, d’interaction homme-machine et de robotique. De nombreuses méthodes de pointe sont entraînées et évaluées sur des jeux de données personnalisés, ce qui rend la comparaison entre les approches difficile. En outre, les jeux de données existants pour l’estimation du regard présentent des variations limitées de pose de tête et d’angles de regard, et les évaluations sont réalisées selon des protocoles et des métriques hétérogènes. Dans cet article, nous proposons un nouveau jeu de données pour l’estimation du regard, nommé ETH-XGaze, comprenant plus d’un million d’images haute résolution capturées sous des poses de tête extrêmes et des angles de regard variés. Ce jeu de données a été collecté auprès de 110 participants à l’aide d’un système matériel personnalisé comprenant 18 appareils photo numériques SLR, des conditions d’éclairage ajustables et un système calibré permettant d’enregistrer les cibles de regard réelles (ground truth). Nous démontrons que notre jeu de données permet d’améliorer significativement la robustesse des méthodes d’estimation du regard face à différentes poses de tête et angles de regard. En outre, nous définissons un protocole expérimental standardisé et une métrique d’évaluation sur ETH-XGaze, afin de mieux unifier la recherche en estimation du regard à l’avenir. Le jeu de données et le site web du benchmark sont disponibles à l’adresse suivante : https://ait.ethz.ch/projects/2020/ETH-XGaze