HyperAIHyperAI
il y a 3 mois

HOICLIP : Transfert efficace de connaissances pour la détection d'actions humain-objet à l'aide de modèles vision-langage

Shan Ning, Longtian Qiu, Yongfei Liu, Xuming He
HOICLIP : Transfert efficace de connaissances pour la détection d'actions humain-objet à l'aide de modèles vision-langage
Résumé

La détection des interactions homme-objet (HOI) vise à localiser les paires homme-objet et à reconnaître leurs interactions. Récemment, le pré-entraînement contrastif langage-image (CLIP) a montré un grand potentiel pour fournir des connaissances a priori sur les interactions aux détecteurs HOI grâce à une distillation de connaissances. Toutefois, ces approches dépendent souvent de grands volumes de données d'entraînement et souffrent d'une performance insuffisante dans des scénarios à peu ou à zéro exemple (few/zero-shot). Dans cet article, nous proposons un cadre novateur de détection HOI qui extrait efficacement les connaissances a priori de CLIP et atteint une meilleure généralisation. Plus précisément, nous introduisons tout d'abord un nouveau décodeur d'interaction qui extrait des régions informatives dans la carte de caractéristiques visuelles de CLIP à l’aide d’un mécanisme d’attention croisée, puis les intègre au modèle de détection principal via un bloc d’intégration de connaissances, permettant une détection plus précise des paires homme-objet. Par ailleurs, nous exploitons les connaissances a priori présentes dans l’encodeur texte de CLIP pour générer un classificateur en intégrant les descriptions HOI. Pour distinguer des interactions à un niveau fin, nous construisons un classificateur de verbes à partir des données d’entraînement grâce à une arithmétique sémantique visuelle et à un adaptateur léger de représentation verbale. En outre, nous proposons une amélioration sans entraînement permettant d’exploiter les prédictions globales HOI issues de CLIP. Des expériences étendues démontrent que notre méthode surpasse largement l’état de l’art sur diverses configurations, par exemple avec une augmentation de +4,04 mAP sur HICO-Det. Le code source est disponible à l’adresse suivante : https://github.com/Artanic30/HOICLIP.