HyperAIHyperAI
il y a 11 jours

GEN-VLKT : Simplifier l'association et améliorer la compréhension des interactions pour la détection d'actions humain-objet

Yue Liao, Aixi Zhang, Miao Lu, Yongliang Wang, Xiaobo Li, Si Liu
GEN-VLKT : Simplifier l'association et améliorer la compréhension des interactions pour la détection d'actions humain-objet
Résumé

La tâche de détection des interactions homme-objet (Human-Object Interaction, HOI) peut être décomposée en deux problèmes fondamentaux : l’association homme-objet et la compréhension des interactions. Dans cet article, nous identifions et abordons les limites des détecteurs classiques de HOI pilotés par des requêtes, sous deux angles distincts. En ce qui concerne l’association, les méthodes bipartites précédentes souffrent d’un post-appariement complexe et coûteux, tandis que les approches monocanale négligent la distinction des caractéristiques entre différentes tâches. Nous proposons un réseau d’encodage guidé (Guided-Embedding Network, GEN), permettant d’obtenir une architecture bipartite sans post-appariement. Dans GEN, nous concevons un décodeur d’instances pour détecter les humains et les objets à l’aide de deux ensembles de requêtes indépendants, ainsi qu’un encodage guidé par la position (position Guided Embedding, p-GE) pour marquer les paires composées d’un humain et d’un objet situés à la même position. Par ailleurs, nous proposons un décodeur d’interactions pour classifier les interactions, où les requêtes d’interaction sont constituées d’encodages guidés par les instances (instance Guided Embeddings, i-GE), générés à partir des sorties de chaque couche du décodeur d’instances. En ce qui concerne la compréhension des interactions, les méthodes antérieures peinent face à une distribution longue-queue et au problème de découverte zéro-shot. Pour pallier ces défis, nous proposons une stratégie d’apprentissage par transfert de connaissances visuo-linguistique (Visual-Linguistic Knowledge Transfer, VLKT), visant à améliorer la compréhension des interactions en transférant des connaissances depuis un modèle pré-entraîné visuo-linguistique, CLIP. Plus précisément, nous extrayons des embeddings textuels pour toutes les étiquettes à l’aide de CLIP afin d’initialiser le classificateur, et introduisons une perte de mimétisme afin de minimiser la distance entre les caractéristiques visuelles produites par GEN et celles de CLIP. En conséquence, GEN-VLKT surpasse largement l’état de l’art sur plusieurs jeux de données, notamment avec une amélioration de +5,05 mAP sur HICO-Det. Le code source est disponible à l’adresse suivante : https://github.com/YueLiao/gen-vlkt.

GEN-VLKT : Simplifier l'association et améliorer la compréhension des interactions pour la détection d'actions humain-objet | Articles de recherche récents | HyperAI