HyperAIHyperAI
il y a 2 mois

Prédiction de l'interaction humain-objet dans les vidéos par le suivi du regard

Ni, Zhifan ; Mascaró, Esteve Valls ; Ahn, Hyemin ; Lee, Dongheui
Prédiction de l'interaction humain-objet dans les vidéos par le suivi du regard
Résumé

Comprendre les interactions humain-objet (HOIs) à partir d'une vidéo est essentiel pour une compréhension complète d'une scène visuelle. Cette ligne de recherche a été abordée en détectant les HOIs à partir d'images et, plus récemment, à partir de vidéos. Cependant, la tâche d'anticipation des HOIs basée sur la vidéo dans une vue à la troisième personne reste peu étudiée. Dans cet article, nous concevons un cadre permettant de détecter les HOIs actuelles et d'anticiper les HOIs futures dans les vidéos. Nous proposons d'utiliser l'information sur le regard humain, car les personnes se concentrent souvent sur un objet avant d'interagir avec lui. Ces caractéristiques du regard sont fusionnées avec les contextes de la scène et les apparences visuelles des paires humain-objet grâce à un transformateur spatio-temporel. Pour évaluer le modèle dans la tâche d'anticipation des HOIs dans un scénario multi-personnes, nous proposons un ensemble de métriques multi-étiquettes par personne. Notre modèle est formé et validé sur le jeu de données VidHOI, qui contient des vidéos capturant la vie quotidienne et est actuellement le plus grand jeu de données vidéo HOI. Les résultats expérimentaux dans la tâche de détection des HOIs montrent que notre approche améliore considérablement la ligne de base avec une marge relative de 36,3 %. De plus, nous menons une étude ablation exhaustive pour démontrer l'efficacité de nos modifications et extensions apportées au transformateur spatio-temporel. Notre code est disponible publiquement sur https://github.com/nizhf/hoi-prediction-gaze-transformer.

Prédiction de l'interaction humain-objet dans les vidéos par le suivi du regard | Articles de recherche récents | HyperAI