HyperAIHyperAI

Command Palette

Search for a command to run...

Regarder et fixer : Inférer des points sensibles aux actions pour la détection unistage des interactions homme-objet

Xubin Zhong Xian Qu Changxing Ding Dacheng Tao

Résumé

Les approches modernes de détection d'interactions homme-objet (HOI) peuvent être classées en méthodes à une étape et méthodes à deux étapes. Les modèles à une étape sont généralement plus efficaces grâce à leurs architectures directes, mais les modèles à deux étapes conservent un avantage significatif en termes de précision. Les méthodes à une étape existantes commencent généralement par détecter des régions ou points d’interaction prédéfinis, puis se concentrent uniquement sur ces régions pour la prédiction d’interactions ; elles manquent ainsi d’étapes de raisonnement dynamique permettant de rechercher activement des indices discriminants. Dans cet article, nous proposons une nouvelle méthode à une étape, nommée Glance and Gaze Network (GGNet), qui modélise de manière adaptative un ensemble de points action-sensibles (ActPoints) via deux étapes : glance (regard rapide) et gaze (regard attentif). L’étape de glance permet rapidement de déterminer si chaque pixel de la carte de caractéristiques constitue un point d’interaction. L’étape de gaze exploite les cartes de caractéristiques générées par l’étape de glance pour inférer progressivement, de manière adaptative, des ActPoints autour de chaque pixel. Les caractéristiques des ActPoints affinés sont ensuite agrégées pour la prédiction d’interactions. En outre, nous avons conçu une approche action-sensible permettant d’associer efficacement chaque interaction détectée à sa paire homme-objet correspondante, ainsi qu’une nouvelle fonction de perte de négatifs durs attentive afin d’améliorer l’optimisation de GGNet. Toutes ces opérations sont effectuées simultanément et de manière efficace pour l’ensemble des pixels des cartes de caractéristiques. Enfin, GGNet dépasse significativement les méthodes de pointe sur les benchmarks V-COCO et HICODET. Le code source de GGNet est disponible à l’adresse suivante : https://github.com/SherlockHolmes221/GGNet.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp