HyperAIHyperAI
il y a 9 jours

Estimation de regard vidéo bout-en-bout par capture du contexte spatio-temporel d'interaction tête-visage-œil

Yiran Guan, Zhuoguang Chen, Wenzheng Zeng, Zhiguo Cao, Yang Xiao
Estimation de regard vidéo bout-en-bout par capture du contexte spatio-temporel d'interaction tête-visage-œil
Résumé

Dans cette lettre, nous proposons une nouvelle méthode, appelée Multi-Clue Gaze (MCGaze), pour faciliter l’estimation de l’orientation du regard à partir de vidéos en capturant, de manière end-to-end, le contexte d’interaction spatio-temporelle entre la tête, le visage et les yeux — un aspect qui n’a pas encore été suffisamment exploré. L’avantage principal de MCGaze réside dans sa capacité à localiser simultanément les indices relatifs à la tête, au visage et aux yeux, en une seule étape, grâce à une optimisation conjointe visant à atteindre les performances optimales. Durant ce processus, un échange de contexte spatio-temporel a lieu entre les indices provenant de la tête, du visage et des yeux. Par conséquent, les estimations finales de regard, obtenues par fusion des caractéristiques issues de différentes requêtes, prennent en compte à la fois les indices globaux issus de la tête et du visage, ainsi que les indices locaux provenant des yeux, ce qui améliore fondamentalement les performances. Par ailleurs, le fonctionnement en une seule étape garantit également une haute efficacité computationnelle. Des expériences menées sur le dataset exigeant Gaze360 confirment la supériorité de notre approche. Le code source sera publié à l’adresse suivante : https://github.com/zgchen33/MCGaze.