HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration de la détection d'interactions homme-objet à l'aide d'un modèle de diffusion image-texte

Jie Yang Bingliang Li Fengyu Yang Ailing Zeng Lei Zhang Ruimao Zhang

Résumé

Ce papier s’intéresse au problème des méthodes actuelles de détection des interactions homme-objet (HOI) et présente DiffHOI, un nouveau cadre de détection HOI fondé sur un modèle pré-entraîné de diffusion texte-image. Ce cadre améliore les performances du détecteur grâce à une diversité accrue des données et une représentation enrichie des interactions homme-objet. Nous démontrons que l’espace de représentation interne d’un modèle de diffusion texte-à-image gelé est fortement corrélé aux concepts de verbes et à leur contexte associé. À cet effet, nous proposons une méthode d’adaptation par ajustement (adapter-style tuning) permettant d’extraire des représentations sémantiques variées provenant à la fois du modèle de diffusion gelé et du modèle CLIP, afin d’enrichir les représentations des humains et des objets issues du détecteur pré-entraîné, réduisant ainsi l’ambiguïté dans la prédiction des interactions. Par ailleurs, pour combler les lacunes des jeux de données HOI existants, nous introduisons SynHOI, un jeu de données synthétique à grande échelle, équilibré par classe et hautement diversifié, comprenant plus de 140 000 images HOI annotées de manière complète au niveau des triplets. Ce jeu de données est construit à l’aide d’un pipeline automatique et évolutif conçu pour échelonner la génération de données annotées HOI de haute diversité et haute précision. SynHOI permet efficacement de réduire le problème de longue queue présent dans les jeux de données existants et favorise l’apprentissage de représentations d’interactions. Des expériences étendues montrent que DiffHOI surpasse significativement l’état de l’art, tant en détection classique (41,50 mAP) qu’en détection zéro-shot. En outre, SynHOI améliore les performances de détection HOI indépendamment du modèle ou du noyau (model-agnostic et backbone-agnostic), notamment en offrant une amélioration remarquable de 11,55 % en mAP sur les classes rares.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp