HyperAIHyperAI
il y a 2 mois

VLPrompt : Vision-Langage pour la Génération de Graphes de Scène Pancaptiques

Zijian Zhou; Miaojing Shi; Holger Caesar
VLPrompt : Vision-Langage pour la Génération de Graphes de Scène Pancaptiques
Résumé

La génération de graphes de scène panoptiques (PSG) vise à atteindre une compréhension complète des images en segmentant simultanément les objets et en prédictionnant leurs relations. Cependant, le problème de la distribution en queue longue des relations entraîne des résultats insatisfaisants dans les applications réelles. Les méthodes précédentes s'appuient principalement sur l'information visuelle ou utilisent une information linguistique limitée, comme les noms d'objets ou de relations, ce qui fait passer sous silence l'utilité de l'information linguistique. En exploitant les progrès récents des grands modèles linguistiques (LLMs), nous proposons d'utiliser l'information linguistique pour aider à la prédiction des relations, en particulier pour celles rares. À cette fin, nous introduisons le modèle de stimulation vision-linguistique (VLPrompt), qui extrait l'information visuelle des images et l'information linguistique des LLMs. Ensuite, grâce à un réseau stimulant basé sur un mécanisme d'attention, il réalise une prédiction précise des relations. Nos expériences approfondies montrent que VLPrompt surpasse significativement les méthodes précédentes de pointe sur le jeu de données PSG, démontrant ainsi l'efficacité de l'intégration de l'information linguistique et la réduction du problème de distribution en queue longue des relations. Le code est disponible à l'adresse \url{https://github.com/franciszzj/TP-SIS}.

VLPrompt : Vision-Langage pour la Génération de Graphes de Scène Pancaptiques | Articles de recherche récents | HyperAI