HyperAIHyperAI

Command Palette

Search for a command to run...

Estimation de regard vidéo bout-en-bout par capture du contexte spatio-temporel d'interaction tête-visage-œil

Yiran Guan Zhuoguang Chen Wenzheng Zeng Zhiguo Cao Yang Xiao

Résumé

Dans cette lettre, nous proposons une nouvelle méthode, appelée Multi-Clue Gaze (MCGaze), pour faciliter l’estimation de l’orientation du regard à partir de vidéos en capturant, de manière end-to-end, le contexte d’interaction spatio-temporelle entre la tête, le visage et les yeux — un aspect qui n’a pas encore été suffisamment exploré. L’avantage principal de MCGaze réside dans sa capacité à localiser simultanément les indices relatifs à la tête, au visage et aux yeux, en une seule étape, grâce à une optimisation conjointe visant à atteindre les performances optimales. Durant ce processus, un échange de contexte spatio-temporel a lieu entre les indices provenant de la tête, du visage et des yeux. Par conséquent, les estimations finales de regard, obtenues par fusion des caractéristiques issues de différentes requêtes, prennent en compte à la fois les indices globaux issus de la tête et du visage, ainsi que les indices locaux provenant des yeux, ce qui améliore fondamentalement les performances. Par ailleurs, le fonctionnement en une seule étape garantit également une haute efficacité computationnelle. Des expériences menées sur le dataset exigeant Gaze360 confirment la supériorité de notre approche. Le code source sera publié à l’adresse suivante : https://github.com/zgchen33/MCGaze.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp