Détection d'interactions homme-objet en bout-à-bout avec HOI Transformer

Nous proposons HOI Transformer pour aborder la détection d’interactions homme-objet (HOI) de manière end-to-end. Les approches actuelles décomposent généralement la tâche HOI en étapes séparées de détection d’objets et de classification d’interactions, ou introduisent un problème d’interaction substitut. À l’inverse, notre méthode, nommée HOI Transformer, simplifie significativement le pipeline HOI en éliminant la nécessité de nombreux composants conçus manuellement. HOI Transformer raisonne sur les relations entre humains et objets à partir du contexte global de l’image et prédit directement les instances HOI en parallèle. Une perte de correspondance quintuple est introduite afin de forcer les prédictions HOI de manière unifiée. Notre approche est conceptuellement bien plus simple et obtient une précision améliorée. Sans recourir à des améliorations supplémentaires, HOI Transformer atteint un score de $26,61\%$ $AP$ sur HICO-DET et $52,9\%$ $AP_{role}$ sur V-COCO, surpassant ainsi les méthodes précédentes tout en étant nettement plus simple. Nous espérons que notre approche pourra servir de solution simple et efficace pour les tâches HOI. Le code est disponible à l’adresse suivante : https://github.com/bbepoch/HoiTransformer.