HyperAIHyperAI

Command Palette

Search for a command to run...

Prédiction de l'interaction humain-objet dans les vidéos par le suivi du regard

Zhifan Ni Esteve Valls Mascaró Hyemin Ahn Dongheui Lee

Résumé

Comprendre les interactions humain-objet (HOIs) à partir d'une vidéo est essentiel pour une compréhension complète d'une scène visuelle. Cette ligne de recherche a été abordée en détectant les HOIs à partir d'images et, plus récemment, à partir de vidéos. Cependant, la tâche d'anticipation des HOIs basée sur la vidéo dans une vue à la troisième personne reste peu étudiée. Dans cet article, nous concevons un cadre permettant de détecter les HOIs actuelles et d'anticiper les HOIs futures dans les vidéos. Nous proposons d'utiliser l'information sur le regard humain, car les personnes se concentrent souvent sur un objet avant d'interagir avec lui. Ces caractéristiques du regard sont fusionnées avec les contextes de la scène et les apparences visuelles des paires humain-objet grâce à un transformateur spatio-temporel. Pour évaluer le modèle dans la tâche d'anticipation des HOIs dans un scénario multi-personnes, nous proposons un ensemble de métriques multi-étiquettes par personne. Notre modèle est formé et validé sur le jeu de données VidHOI, qui contient des vidéos capturant la vie quotidienne et est actuellement le plus grand jeu de données vidéo HOI. Les résultats expérimentaux dans la tâche de détection des HOIs montrent que notre approche améliore considérablement la ligne de base avec une marge relative de 36,3 %. De plus, nous menons une étude ablation exhaustive pour démontrer l'efficacité de nos modifications et extensions apportées au transformateur spatio-temporel. Notre code est disponible publiquement sur https://github.com/nizhf/hoi-prediction-gaze-transformer.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Prédiction de l'interaction humain-objet dans les vidéos par le suivi du regard | Articles | HyperAI