Extraction des avantages de la détection HOI en deux étapes et en une seule étape

Les méthodes à deux étapes ont dominé la détection d’interactions homme-objet (HOI) pendant plusieurs années. Récemment, les méthodes à une seule étape pour la détection HOI sont devenues populaires. Dans cet article, nous visons à explorer les avantages et inconvénients fondamentaux des méthodes à deux étapes et à une seule étape. À cette fin, nous constatons que les méthodes classiques à deux étapes souffrent principalement d’un mauvais positionnement des paires homme-objet interactives positives, tandis que les méthodes à une seule étape peinent à établir un bon compromis dans l’apprentissage multi-tâches, à savoir la détection d’objets et la classification d’interactions. Par conséquent, un problème central réside dans la manière de tirer parti des aspects essentiels tout en éliminant les aspects défavorables des deux approches traditionnelles. Pour y parvenir, nous proposons un nouveau cadre à une seule étape, dans lequel la détection des paires homme-objet et la classification d’interaction sont déconnectées de manière en cascade. Plus précisément, nous concevons d’abord un générateur de paires homme-objet basé sur un détecteur HOI à une seule étape d’état de l’art, en supprimant le module ou la tête de classification d’interaction, puis nous concevons un classificateur d’interaction relativement isolé pour classifier chaque paire homme-objet. Les deux décodeurs en cascade de notre cadre proposé peuvent se concentrer chacun sur une tâche spécifique — soit la détection, soit la classification d’interaction. En ce qui concerne la mise en œuvre concrète, nous adoptons un détecteur HOI basé sur un transformateur comme modèle de base. Le nouveau paradigme de déconnexion introduit dépasse largement les méthodes existantes, avec une amélioration relative significative de 9,32 % en mAP sur le jeu de données HICO-Det. Le code source est disponible à l’adresse suivante : https://github.com/YueLiao/CDN.