Découvrir les concepts d'interaction humain-objet par apprentissage auto-compositionnel

Une compréhension complète de l'interaction humain-objet (HOI) nécessite non seulement la détection d'une petite partie de concepts (ou catégories) d'HOI prédéfinis, mais aussi d'autres concepts d'HOI raisonnables, tandis que les approches actuelles échouent généralement à explorer une grande partie des concepts d'HOI inconnus (c'est-à-dire des combinaisons inconnues mais raisonnables de verbes et d'objets). Dans cet article, 1) nous introduisons une tâche nouvelle et difficile pour une compréhension complète de l'HOI, qui est appelée Découverte de Concepts d'HOI ; et 2) nous élaborons un cadre d'apprentissage auto-compositionnel (ou SCL) pour la découverte de concepts d'HOI. Plus précisément, nous maintenons une matrice de confiance des concepts mise à jour en ligne pendant l'entraînement : 1) nous attribuons des pseudo-étiquettes à toutes les instances composites d'HOI selon la matrice de confiance des concepts pour l'apprentissage auto ; et 2) nous mettons à jour la matrice de confiance des concepts en utilisant les prédictions de toutes les instances composites d'HOI. Ainsi, la méthode proposée permet l'apprentissage sur les concepts d'HOI connus et inconnus. Nous menons des expériences approfondies sur plusieurs jeux de données populaires d'HOI pour démontrer l'efficacité de la méthode proposée dans la découverte de concepts d'HOI, la reconnaissance des capacités des objets et la détection d'HOI. Par exemple, le cadre d'apprentissage auto-compositionnel proposé améliore considérablement les performances : 1) de plus de 10 % pour la découverte de concepts d'HOI sur HICO-DET et plus de 3 % sur V-COCO ; 2) plus de 9 % mAP pour la reconnaissance des capacités des objets sur MS-COCO et HICO-DET ; et 3) respectivement plus de 30 % et 20 % pour la détection inconnue rare-en-premier et non-rare-en-premier. Le code est disponible au public sur https://github.com/zhihou7/HOI-CL.