FGAHOI : Anchres à Granularité Fine pour la Détection d'Interactions Homme-Objet

L'interaction homme-objet (HOI), en tant que problème important en vision par ordinateur, nécessite la localisation des paires homme-objet ainsi que l'identification des relations d'interaction entre elles. L'instance HOI présente une étendue spatiale, une variation d'échelle et une complexité de tâche plus importantes que celles des instances d'objets individuels, ce qui la rend plus sensible aux arrière-plans bruités. Pour atténuer l'impact des arrière-plans bruités sur la détection HOI, il est essentiel de tirer parti des informations présentes dans l'image d'entrée afin de générer des ancres à granularité fine, qui seront ensuite utilisées pour guider la détection des instances HOI. Cependant, cela soulève plusieurs défis : i) extraire efficacement des caractéristiques pertinentes à partir d'images aux arrière-plans complexes reste une question ouverte ; ii) réaliser une alignement sémantique entre les caractéristiques extraites et les embeddings de requête constitue également un problème difficile. Dans cet article, nous proposons un nouveau cadre end-to-end basé sur les transformateurs, appelé FGAHOI, pour atténuer ces problèmes. FGAHOI se compose de trois composants spécialisés : l'échantillonnage multi-échelle (MSS), la fusion hiérarchique sensible à l’espace (HSAM) et le mécanisme de fusion sensible à la tâche (TAM). MSS extrait les caractéristiques des humains, des objets et des zones d'interaction à partir d'arrière-plans bruités, pour des instances HOI de différentes échelles. HSAM et TAM alignent et fusionnent successivement les caractéristiques extraites et les embeddings de requête selon des perspectives hiérarchiques spatiales et fonctionnelles. Par ailleurs, une nouvelle stratégie d'entraînement, nommée stratégie d'entraînement par étapes (Stage-wise Training Strategy), est conçue pour réduire la pression d'entraînement engendrée par la complexité excessive des tâches assignées à FGAHOI. En outre, nous proposons deux méthodes pour évaluer la difficulté de la détection HOI, ainsi qu'un nouveau jeu de données, HOI-SDC, destiné à répondre à deux défis spécifiques : la distribution inégale des zones dans les paires homme-objet et la modélisation visuelle à longue distance des paires homme-objet.