HyperAIHyperAI
il y a 3 mois

Exploration du Transformer conscient de la structure sur les propositions d'interaction pour la détection d'interactions homme-objet

Yong Zhang, Yingwei Pan, Ting Yao, Rui Huang, Tao Mei, Chang-Wen Chen
Exploration du Transformer conscient de la structure sur les propositions d'interaction pour la détection d'interactions homme-objet
Résumé

Les techniques récentes de détection d’interactions homme-objet (HOI) à haut rendement ont été fortement influencées par les détecteurs d’objets basés sur les Transformers (par exemple, DETR). Toutefois, la plupart d’entre elles cartographient directement des requêtes d’interaction paramétriques vers un ensemble de prédictions HOI via un Transformer classique, de manière monophasée. Ce cadre laisse ainsi exploitées de manière insuffisante les structures inter- ou intra-interaction riches présentes dans les données. Dans ce travail, nous proposons un nouveau détecteur HOI inspiré du Transformer, nommé Structure-aware Transformer over Interaction Proposals (STIP). Ce design décompose le processus de prédiction de l’ensemble HOI en deux phases successives : une première phase de génération de propositions d’interaction, suivie d’une seconde phase où les propositions d’interaction non paramétriques sont transformées en prédictions HOI via un Transformer conscient de la structure. Le Transformer conscient de la structure améliore le Transformer classique en codant, en plus des relations sémantiques globales entre les propositions d’interaction, les structures spatiales locales des humains et objets au sein de chaque proposition d’interaction, afin de renforcer la qualité des prédictions HOI. Des expériences étendues menées sur les benchmarks V-COCO et HICO-DET démontrent l’efficacité de STIP, avec des résultats supérieurs à ceux des détecteurs HOI les plus avancés à l’état de l’art. Le code source est disponible à l’adresse suivante : \url{https://github.com/zyong812/STIP}.