HyperAIHyperAI
il y a 2 mois

ViTGaze : Suivi du regard avec des caractéristiques d'interaction dans les transformateurs visuels

Song, Yuehao ; Wang, Xinggang ; Yao, Jingfeng ; Liu, Wenyu ; Zhang, Jinglin ; Xu, Xiangmin
ViTGaze : Suivi du regard avec des caractéristiques d'interaction dans les transformateurs visuels
Résumé

Le suivi du regard vise à interpréter les interactions entre l'homme et la scène en prédiction le point de focalisation du regard d'une personne. Les approches prédominantes adoptent souvent un cadre en deux étapes, où des informations multimodales sont extraites lors de la première étape pour prédire la cible du regard. Par conséquent, l'efficacité de ces méthodes dépend fortement de la précision de l'extraction modale précédente. D'autres utilisent une approche unimodale avec des décodeurs complexes, augmentant ainsi la charge computationnelle du réseau. Inspirés par le succès remarquable des transformateurs visuels pré-entraînés simples (ViTs), nous introduisons un nouveau cadre de suivi du regard unimodal appelé ViTGaze. Contrairement aux méthodes précédentes, il crée un cadre novateur de suivi du regard principalement basé sur des encodeurs puissants (les paramètres du décodeur relatifs étant inférieurs à 1 %). Notre principale intuition est que les interactions inter-jetons au sein de l'auto-attention peuvent être transférées aux interactions entre les humains et les scènes. En exploitant cette hypothèse, nous formulons un cadre composé d'un encodeur d'interaction 4D et d'un module de guidage spatial 2D pour extraire des informations sur les interactions homme-scène à partir des cartes d'auto-attention. De plus, nos investigations révèlent que le ViT avec une pré-entraînement auto-supervisé possède une capacité améliorée à extraire des informations de corrélation. De nombreuses expériences ont été menées pour démontrer les performances de la méthode proposée. Notre méthode atteint des performances d'état de l'art (SOTA) parmi toutes les méthodes unimodales (amélioration de 3,4 % dans le score sous la courbe [AUC], amélioration de 5,1 % dans la précision moyenne [AP]) et offre des performances très comparables aux méthodes multimodales avec 59 % moins de paramètres.

ViTGaze : Suivi du regard avec des caractéristiques d'interaction dans les transformateurs visuels | Articles de recherche récents | HyperAI