HyperAIHyperAI
il y a 2 mois

QPIC : Détection d'interactions humaines-objets par paires basée sur des requêtes avec des informations contextuelles à l'échelle de l'image

Tamura, Masato ; Ohashi, Hiroki ; Yoshinaga, Tomoaki
QPIC : Détection d'interactions humaines-objets par paires basée sur des requêtes avec des informations contextuelles à l'échelle de l'image
Résumé

Nous proposons une méthode simple, intuitive et pourtant puissante pour la détection d'interactions humain-objet (HOI). Les HOIs sont si diverses en termes de répartition spatiale dans une image que les méthodes actuelles basées sur les CNN font face à trois inconvénients majeurs : elles ne peuvent pas exploiter les caractéristiques globales de l'image en raison de la localité des CNN, elles s'appuient sur un emplacement d'intérêt défini manuellement pour l'agrégation des caractéristiques, ce qui ne couvre parfois pas les régions contextuellement importantes, et elles ne peuvent éviter de mélanger les caractéristiques de plusieurs instances d'HOI lorsqu'elles sont proches les unes des autres. Pour surmonter ces inconvénients, nous proposons un extracteur de caractéristiques basé sur le transformer, dans lequel un mécanisme d'attention et une détection basée sur des requêtes jouent des rôles clés. Le mécanisme d'attention est efficace pour agréger les informations contextuellement importantes à l'échelle de toute l'image, tandis que les requêtes, que nous concevons de manière à ce que chaque requête capture au plus un couple humain-objet, permettent d'éviter le mélange des caractéristiques provenant de plusieurs instances. Cet extracteur de caractéristiques basé sur le transformer produit des plongements si efficaces que les têtes de détection ultérieures peuvent être relativement simples et intuitives. Une analyse approfondie révèle que la méthode proposée réussit à extraire avec succès des caractéristiques contextuellement importantes, surpassant ainsi largement les méthodes existantes (avec une amélioration de 5,37 mAP sur HICO-DET et 5,7 mAP sur V-COCO). Les codes sources sont disponibles à $\href{https://github.com/hitachi-rd-cv/qpic}{\text{cette adresse URL}}$.

QPIC : Détection d'interactions humaines-objets par paires basée sur des requêtes avec des informations contextuelles à l'échelle de l'image | Articles de recherche récents | HyperAI