HyperAIHyperAI
il y a 3 mois

En se concentrant sur ce qu'il faut décoder et ce qu'il faut entraîner : décodage SOV avec débruitage guidé par une cible spécifique et conseiller vision-langage

Junwen Chen, Yingcheng Wang, Keiji Yanai
En se concentrant sur ce qu'il faut décoder et ce qu'il faut entraîner : décodage SOV avec débruitage guidé par une cible spécifique et conseiller vision-langage
Résumé

Les méthodes récentes basées sur les transformateurs obtiennent des gains significatifs dans la tâche de détection des interactions homme-objet (HOID) en exploitant la détection de DETR et les connaissances a priori des modèles vision-langage (VLM). Toutefois, ces approches souffrent de temps d’entraînement prolongés et d’une optimisation complexe en raison de l’entrelacement entre la détection d’objets et la reconnaissance des interactions HOI durant le processus de décodage. En particulier, les embeddings de requête utilisés pour prédire à la fois les étiquettes et les boîtes englobantes souffrent de représentations ambigües, et l’écart entre la prédiction des étiquettes HOI et celle des verbes n’est pas pris en compte. Pour surmonter ces défis, nous proposons SOV-STG-VLA, une architecture composée de trois composants clés : un décodage Sujet-Objet-Verbe (SOV), une déséquerrance guidée par une cible spécifique (STG) et un conseiller vision-langage (VLA). Nos décodeurs SOV désenchevèlent la détection d’objets et la reconnaissance des verbes grâce à une nouvelle représentation de région d’interaction. La stratégie STG de déséquerrance apprend des embeddings d’étiquettes à partir d’informations de vérité terrain afin de guider à la fois l’entraînement et l’inférence. Notre méthode SOV-STG atteint une convergence rapide et une haute précision, posant ainsi les fondations pour l’intégration des connaissances a priori du VLM par le VLA. Nous introduisons un décodeur conseiller vision pour fusionner les informations de région d’interaction et les connaissances visuelles du VLM, ainsi qu’un pont de prédiction Verbe-HOI afin de renforcer l’apprentissage des représentations d’interaction. Le VLA améliore notablement notre modèle SOV-STG et atteint des performances SOTA avec seulement un sixième du nombre d’époques d’entraînement requis par les méthodes SOTA récentes. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/cjw2021/SOV-STG-VLA