HyperAIHyperAI
il y a 11 jours

Apprentissage par cohérence via l'augmentation du chemin de décodage pour les Transformers dans la détection d'interactions humain-objet

Jihwan Park, SeungJun Lee, Hwan Heo, Hyeong Kyu Choi, Hyunwoo J.Kim
Apprentissage par cohérence via l'augmentation du chemin de décodage pour les Transformers dans la détection d'interactions humain-objet
Résumé

La détection d'interactions homme-objet (HOI) est une tâche de reconnaissance visuelle globale qui implique à la fois la détection d'objets et la classification des interactions. Les travaux antérieurs sur la détection HOI ont été abordés à travers diverses compositions de prédictions partielles, par exemple : Image → HO → I, ou Image → HI → O. Récemment, des architectures basées sur les transformateurs pour la détection HOI ont émergé, permettant de prédire directement les triplets HOI de manière end-to-end (Image → HOI). Inspirés par les différentes voies d'inférence proposées pour la détection HOI, nous proposons une nouvelle stratégie d'apprentissage appelée apprentissage de cohérence entre chemins (Cross-Path Consistency Learning, CPC), conçue pour améliorer la détection HOI par les transformateurs en exploitant des voies de décodage augmentées. L'apprentissage CPC impose que toutes les prédictions possibles issues de séquences d'inférence permutées soient cohérentes entre elles. Ce schéma simple incite le modèle à apprendre des représentations cohérentes, améliorant ainsi la généralisation sans augmenter la capacité du modèle. Nos expérimentations démontrent l'efficacité de notre méthode, avec des améliorations significatives sur les benchmarks V-COCO et HICO-DET par rapport aux modèles de base. Notre code est disponible à l'adresse suivante : https://github.com/mlvlab/CPChoi.

Apprentissage par cohérence via l'augmentation du chemin de décodage pour les Transformers dans la détection d'interactions humain-objet | Articles de recherche récents | HyperAI