Apprentissage compositionnel visuel pour la détection d'interactions humain-objet

La détection d'interactions humain-objet (HOI) vise à localiser et inférer les relations entre un être humain et des objets dans une image. Cette tâche est complexe en raison du grand nombre de combinaisons possibles d'objets et de types de verbes, qui forment une distribution à queue longue. Nous avons élaboré un cadre de apprentissage visuel compositionnel profond (VCL), qui est un cadre simple mais efficace pour aborder ce problème de manière effective. Le VCL décompose d'abord une représentation HOI en caractéristiques spécifiques aux objets et aux verbes, puis compose de nouveaux échantillons d'interaction dans l'espace des caractéristiques en assemblant les caractéristiques décomposées. L'intégration de la décomposition et de la composition permet au VCL de partager les caractéristiques des objets et des verbes entre différents échantillons HOI et images, ainsi que de générer de nouveaux échantillons d'interaction et de nouveaux types d'HOI, atténuant ainsi considérablement le problème de distribution à queue longue et améliorant la détection HOI avec peu ou sans exemples. Des expériences approfondies montrent que le VCL proposé peut améliorer efficacement la généralisation de la détection HOI sur HICO-DET et V-COCO, surpassant les méthodes récentes les plus avancées sur HICO-DET. Le code est disponible à l'adresse suivante : https://github.com/zhihou7/VCL.