Détection de l'interaction humain-objet par apprentissage compositionnel fabriqué

La détection d'interactions humain-objet (HOI), qui consiste à inférer les relations entre les humains et les objets à partir d'images ou de vidéos, est une tâche fondamentale pour la compréhension de haut niveau des scènes. Cependant, la détection HOI souffre généralement de la nature à queue longue et ouverte des interactions avec les objets, tandis que l'être humain possède une capacité compositionnelle perceptive extrêmement puissante pour reconnaître des échantillons HOI rares ou inédits. Inspirés par cette observation, nous avons conçu un nouveau cadre d'apprentissage compositionnel HOI, appelé Apprentissage Compositionnel Fabriqué (FCL), pour résoudre le problème de détection HOI à queue longue et ouverte. Plus précisément, nous introduisons un fabricateur d'objets pour générer des représentations d'objets efficaces, puis combinons des verbes et des objets fabriqués pour composer de nouveaux échantillons HOI. Grâce au fabricateur d'objets proposé, nous sommes en mesure de générer des échantillons HOI à grande échelle pour des catégories rares et inédites, atténuant ainsi les problèmes liés à la nature à queue longue et ouverte dans la détection HOI. Des expériences approfondies sur le jeu de données de détection HOI le plus populaire, HICO-DET, montrent l'efficacité de notre méthode proposée pour la détection HOI déséquilibrée et améliorent considérablement les performances actuelles sur les catégories HOI rares et inédites. Le code source est disponible sur https://github.com/zhihou7/HOI-CL.