HyperAIHyperAI
il y a 3 mois

ViPLO : Graphique auto-bouclé conditionné par la posture basé sur le Transformer de vision pour la détection d'interactions homme-objet

Jeeseung Park, Jin-Woo Park, Jong-Seok Lee
ViPLO : Graphique auto-bouclé conditionné par la posture basé sur le Transformer de vision pour la détection d'interactions homme-objet
Résumé

La détection d'interactions homme-objet (HOI), qui localise et infère les relations entre les humains et les objets, joue un rôle crucial dans la compréhension des scènes. Bien que les détecteurs HOI à deux étapes offrent un avantage en termes d'efficacité d'entraînement et d'inférence, leurs performances restent inférieures à celles des méthodes à une seule étape, en raison de l'utilisation de réseaux de base (backbones) obsolètes et du manque de prise en compte du processus de perception humaine dans les classificateurs d'interactions. Dans cet article, nous proposons ViPLO (Vision Transformer-based Pose-Conditioned Self-Loop Graph), une nouvelle approche visant à résoudre ces limites. Premièrement, nous introduisons une méthode novatrice d'extraction de caractéristiques adaptée au backbone Vision Transformer, appelée module MOA (Masking with Overlapped Area). Ce module exploite la zone de chevauchement entre chaque patch et la région donnée dans la fonction d'attention, ce qui permet de surmonter le problème de quantification inhérent à l'utilisation du backbone Vision Transformer. En outre, nous concevons un graphe doté d'une structure de boucle auto-contrôlée conditionnée par la posture, qui met à jour l'encodage du nœud humain à l'aide des caractéristiques locales des articulations humaines. Cette approche permet au classificateur de se concentrer sur des articulations spécifiques, améliorant ainsi l'identification du type d'interaction, une stratégie inspirée du processus de perception humaine dans les interactions HOI. En conséquence, ViPLO atteint des résultats de pointe sur deux benchmarks publics, obtenant notamment une amélioration de +2,07 mAP sur le dataset HICO-DET. Les codes sources sont disponibles à l'adresse suivante : https://github.com/Jeeseung-Park/ViPLO.

ViPLO : Graphique auto-bouclé conditionné par la posture basé sur le Transformer de vision pour la détection d'interactions homme-objet | Articles de recherche | HyperAI