il y a 8 mois

Résumé

Comprendre les interactions humain-objet (HOIs) à partir d'une vidéo est essentiel pour une compréhension complète d'une scène visuelle. Cette ligne de recherche a été abordée en détectant les HOIs à partir d'images et, plus récemment, à partir de vidéos. Cependant, la tâche d'anticipation des HOIs basée sur la vidéo dans une vue à la troisième personne reste peu étudiée. Dans cet article, nous concevons un cadre permettant de détecter les HOIs actuelles et d'anticiper les HOIs futures dans les vidéos. Nous proposons d'utiliser l'information sur le regard humain, car les personnes se concentrent souvent sur un objet avant d'interagir avec lui. Ces caractéristiques du regard sont fusionnées avec les contextes de la scène et les apparences visuelles des paires humain-objet grâce à un transformateur spatio-temporel. Pour évaluer le modèle dans la tâche d'anticipation des HOIs dans un scénario multi-personnes, nous proposons un ensemble de métriques multi-étiquettes par personne. Notre modèle est formé et validé sur le jeu de données VidHOI, qui contient des vidéos capturant la vie quotidienne et est actuellement le plus grand jeu de données vidéo HOI. Les résultats expérimentaux dans la tâche de détection des HOIs montrent que notre approche améliore considérablement la ligne de base avec une marge relative de 36,3 %. De plus, nous menons une étude ablation exhaustive pour démontrer l'efficacité de nos modifications et extensions apportées au transformateur spatio-temporel. Notre code est disponible publiquement sur https://github.com/nizhf/hoi-prediction-gaze-transformer.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Compréhension Vidéo

Vision Par Ordinateur

Détection D'objets

Vision Par Ordinateur

Tâche

Zhifan Ni Esteve Valls Mascaró Hyemin Ahn Dongheui Lee

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Compréhension Vidéo

Vision Par Ordinateur

Détection D'objets

Vision Par Ordinateur

Tâche

Zhifan Ni Esteve Valls Mascaró Hyemin Ahn Dongheui Lee

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Prédiction de l'interaction humain-objet dans les vidéos par le suivi du regard | Articles | HyperAI

Command Palette

Prédiction de l'interaction humain-objet dans les vidéos par le suivi du regard

Zhifan Ni Esteve Valls Mascaró Hyemin Ahn Dongheui Lee

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Prédiction de l'interaction humain-objet dans les vidéos par le suivi du regard

Zhifan Ni Esteve Valls Mascaró Hyemin Ahn Dongheui Lee

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Prédiction de l'interaction humain-objet dans les vidéos par le suivi du regard

Zhifan Ni Esteve Valls Mascaró Hyemin Ahn Dongheui Lee

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters