HyperAIHyperAI

Command Palette

Search for a command to run...

ViPLO : Graphique auto-bouclé conditionné par la posture basé sur le Transformer de vision pour la détection d'interactions homme-objet

Jeeseung Park Jin-Woo Park Jong-Seok Lee

Résumé

La détection d'interactions homme-objet (HOI), qui localise et infère les relations entre les humains et les objets, joue un rôle crucial dans la compréhension des scènes. Bien que les détecteurs HOI à deux étapes offrent un avantage en termes d'efficacité d'entraînement et d'inférence, leurs performances restent inférieures à celles des méthodes à une seule étape, en raison de l'utilisation de réseaux de base (backbones) obsolètes et du manque de prise en compte du processus de perception humaine dans les classificateurs d'interactions. Dans cet article, nous proposons ViPLO (Vision Transformer-based Pose-Conditioned Self-Loop Graph), une nouvelle approche visant à résoudre ces limites. Premièrement, nous introduisons une méthode novatrice d'extraction de caractéristiques adaptée au backbone Vision Transformer, appelée module MOA (Masking with Overlapped Area). Ce module exploite la zone de chevauchement entre chaque patch et la région donnée dans la fonction d'attention, ce qui permet de surmonter le problème de quantification inhérent à l'utilisation du backbone Vision Transformer. En outre, nous concevons un graphe doté d'une structure de boucle auto-contrôlée conditionnée par la posture, qui met à jour l'encodage du nœud humain à l'aide des caractéristiques locales des articulations humaines. Cette approche permet au classificateur de se concentrer sur des articulations spécifiques, améliorant ainsi l'identification du type d'interaction, une stratégie inspirée du processus de perception humaine dans les interactions HOI. En conséquence, ViPLO atteint des résultats de pointe sur deux benchmarks publics, obtenant notamment une amélioration de +2,07 mAP sur le dataset HICO-DET. Les codes sources sont disponibles à l'adresse suivante : https://github.com/Jeeseung-Park/ViPLO.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp