Apprentissage de requêtes catégorielles pour la classification des interactions homme-objet

Contrairement à la plupart des méthodes précédentes de classification d’interactions homme-objet (HOI), qui se concentrent sur l’apprentissage de caractéristiques améliorées pour les humains et les objets, nous proposons une nouvelle approche originale et complémentaire appelée apprentissage de requêtes par catégorie. Ces requêtes sont explicitement associées aux catégories d’interaction, converties en représentations catégorielles spécifiques à l’image grâce à un décodeur transformer, et apprises via une tâche auxiliaire de classification au niveau de l’image. Cette idée s’inspire d’une méthode antérieure de classification d’images à plusieurs étiquettes, mais est pour la première fois appliquée à la tâche exigeante de classification des interactions homme-objet. Notre méthode est simple, générale et efficace. Elle a été validée sur trois bases de référence représentatives de HOI et atteint de nouveaux résultats d’état de l’art sur deux benchmarks.