HyperAIHyperAI
il y a 11 jours

HPT++ : Amorçage hiérarchique des modèles vision-langage par génération de connaissances multi-granulaires et modélisation structurelle améliorée

Yubin Wang, Xinyang Jiang, De Cheng, Wenli Sun, Dongsheng Li, Cairong Zhao
HPT++ : Amorçage hiérarchique des modèles vision-langage par génération de connaissances multi-granulaires et modélisation structurelle améliorée
Résumé

L’apprentissage de prompts est devenu une stratégie largement adoptée pour adapter les modèles fondamentaux vision-langage (VLM), tels que CLIP, à des tâches spécifiques. Avec l’émergence des grands modèles linguistiques (LLM), des études récentes ont exploré le potentiel d’utiliser des descriptions liées aux catégories afin d’améliorer l’efficacité des prompts. Toutefois, les descriptions conventionnelles manquent d’informations structurées explicites nécessaires pour représenter les interconnexions entre des éléments clés tels que les entités ou les attributs en lien avec une catégorie donnée. Étant donné que les méthodes actuelles d’ajustement de prompts accordent peu d’attention à la gestion des connaissances structurées, ce papier propose d’utiliser les LLM pour construire un graphe pour chaque description, afin de privilégier ce type de connaissance structurée. En conséquence, nous introduisons une nouvelle approche, appelée Hierarchical Prompt Tuning (HPT), permettant de modéliser simultanément la connaissance structurée et la connaissance linguistique traditionnelle. Plus précisément, nous proposons un module d’attention guidée par les relations pour capturer les associations par paires entre entités et attributs, au niveau du traitement des prompts de bas niveau. Par ailleurs, en intégrant des prompts de haut niveau et de niveau global pour modéliser les significations globales, la structure hiérarchique proposée établit des liens inter-niveaux et permet au modèle de gérer des relations plus complexes et à plus long terme. Enfin, en améliorant la génération de connaissances à plusieurs granularités, en redessinant le module de réajustement d’attention piloté par les relations, et en intégrant des contraintes de cohérence sur l’encodeur de texte hiérarchique, nous proposons HPT++, une version améliorée de HPT qui renforce davantage ses performances. Nos expériences sont menées dans un large éventail de scénarios d’évaluation, incluant la généralisation base-to-new, l’évaluation croisée entre jeux de données et la généralisation de domaine. Les résultats étendus ainsi que les études d’ablation démontrent l’efficacité de notre approche, qui dépasse de manière cohérente les méthodes de l’état de l’art existantes.