QAHOI : Anchres basées sur la requête pour la détection d'interactions homme-objet

La détection des interactions homme-objet (HOI), en tant que tâche secondaire dérivée de la détection d'objets, consiste à localiser les paires homme-objet dans une image et à extraire les relations sémantiques entre eux. Récemment, les approches à une seule étape sont devenues une tendance émergente pour cette tâche en raison de leur efficacité élevée. Toutefois, ces méthodes se concentrent principalement sur la détection des points d'interaction potentiels ou sur le filtrage des paires homme-objet, tout en ignorant la variabilité des positions et des tailles des objets à différentes échelles spatiales. Pour résoudre ce problème, nous proposons une méthode basée sur un transformateur, appelée QAHOI (Query-Based Anchors for Human-Object Interaction detection), qui exploite une architecture multi-échelle pour extraire des caractéristiques à différentes échelles spatiales et utilise des ancres basées sur des requêtes pour prédire tous les éléments d'une instance d'interaction homme-objet. Nous montrons également que l'utilisation d'un modèle de base puissant améliore significativement la précision de QAHOI, et que QAHOI, combiné à un modèle de base basé sur un transformateur, dépasse largement les méthodes les plus récentes de l'état de l'art sur le benchmark HICO-DET. Le code source est disponible à l'adresse $\href{https://github.com/cjw2021/QAHOI}{\text{ce lien HTTPS}}$.