HyperAIHyperAI
il y a 11 jours

Apprentissage de prompt hiérarchique avec connaissance linguistique structurée pour les modèles vision-langage

Yubin Wang, Xinyang Jiang, De Cheng, Dongsheng Li, Cairong Zhao
Apprentissage de prompt hiérarchique avec connaissance linguistique structurée pour les modèles vision-langage
Résumé

L’apprentissage de prompts est devenu une stratégie largement adoptée pour adapter les modèles fondamentaux vision-langage aux tâches spécifiques. Avec l’émergence des grands modèles linguistiques (LLM), des études récentes ont exploré l’utilisation de descriptions liées aux catégories comme entrée afin d’améliorer l’efficacité des prompts. Toutefois, les descriptions conventionnelles manquent de structure informationnelle permettant de représenter efficacement les interconnexions entre entités ou attributs associés à une catégorie donnée. Pour pallier cette limitation et privilégier l’exploitation des connaissances structurées, ce papier propose d’utiliser les LLM pour construire un graphe à partir de chaque description, afin de modéliser les entités et attributs décrivant la catégorie, ainsi que leurs corrélations. Les méthodes existantes d’ajustement de prompts se révèlent insuffisantes pour gérer ce type de connaissance structurée. En conséquence, nous proposons une nouvelle approche appelée Hierarchical Prompt Tuning (HPT), qui permet de modéliser simultanément les connaissances structurées et les connaissances linguistiques conventionnelles. Plus précisément, nous introduisons un module d’attention guidée par les relations pour capturer les associations par paires entre entités et attributs, au niveau du traitement des prompts de bas niveau. Par ailleurs, en intégrant des prompts de haut niveau et de niveau global pour modéliser les significations globales, la structure hiérarchique proposée établit des liens inter-niveaux et permet au modèle de traiter des relations plus complexes et plus longues. Des expérimentations étendues montrent que notre HPT est particulièrement efficace et se généralise bien mieux que les méthodes SOTA existantes. Notre code est disponible à l’adresse suivante : https://github.com/Vill-Lab/2024-AAAI-HPT.