HyperAIHyperAI
il y a 3 mois

Amélioration de la détection d'interactions homme-objet à l'aide d'un modèle de diffusion image-texte

Jie Yang, Bingliang Li, Fengyu Yang, Ailing Zeng, Lei Zhang, Ruimao Zhang
Amélioration de la détection d'interactions homme-objet à l'aide d'un modèle de diffusion image-texte
Résumé

Ce papier s’intéresse au problème des méthodes actuelles de détection des interactions homme-objet (HOI) et présente DiffHOI, un nouveau cadre de détection HOI fondé sur un modèle pré-entraîné de diffusion texte-image. Ce cadre améliore les performances du détecteur grâce à une diversité accrue des données et une représentation enrichie des interactions homme-objet. Nous démontrons que l’espace de représentation interne d’un modèle de diffusion texte-à-image gelé est fortement corrélé aux concepts de verbes et à leur contexte associé. À cet effet, nous proposons une méthode d’adaptation par ajustement (adapter-style tuning) permettant d’extraire des représentations sémantiques variées provenant à la fois du modèle de diffusion gelé et du modèle CLIP, afin d’enrichir les représentations des humains et des objets issues du détecteur pré-entraîné, réduisant ainsi l’ambiguïté dans la prédiction des interactions. Par ailleurs, pour combler les lacunes des jeux de données HOI existants, nous introduisons SynHOI, un jeu de données synthétique à grande échelle, équilibré par classe et hautement diversifié, comprenant plus de 140 000 images HOI annotées de manière complète au niveau des triplets. Ce jeu de données est construit à l’aide d’un pipeline automatique et évolutif conçu pour échelonner la génération de données annotées HOI de haute diversité et haute précision. SynHOI permet efficacement de réduire le problème de longue queue présent dans les jeux de données existants et favorise l’apprentissage de représentations d’interactions. Des expériences étendues montrent que DiffHOI surpasse significativement l’état de l’art, tant en détection classique (41,50 mAP) qu’en détection zéro-shot. En outre, SynHOI améliore les performances de détection HOI indépendamment du modèle ou du noyau (model-agnostic et backbone-agnostic), notamment en offrant une amélioration remarquable de 11,55 % en mAP sur les classes rares.