HOTR : Détection d'interactions homme-objet en bout-en-bout avec des Transformers

La détection des interactions homme-objet (HOI) consiste à identifier un ensemble d’interactions dans une image, en impliquant i) la localisation des sujets (c’est-à-dire les humains) et des objets cibles impliqués dans l’interaction, et ii) la classification des étiquettes d’interaction. La plupart des méthodes existantes abordent cette tâche de manière indirecte en détectant d’abord les instances d’humains et d’objets, puis en inférant individuellement chaque paire d’instances détectées. Dans ce papier, nous proposons un cadre novateur, appelé HOTR, qui prédit directement un ensemble de triplets à partir d’une image, en s’appuyant sur une architecture d’encodeur-décodeur à transformer. Grâce à cette prédiction par ensemble, notre méthode exploite efficacement les relations sémantiques inhérentes présentes dans l’image, sans nécessiter de post-traitement coûteux en temps, qui constitue le principal goulot d’étranglement des méthodes existantes. L’algorithme proposé atteint une performance de pointe sur deux benchmarks de détection HOI, avec un temps d’inférence inférieur à 1 ms après la détection d’objets.