HyperAIHyperAI

Command Palette

Search for a command to run...

VLPrompt : Vision-Langage pour la Génération de Graphes de Scène Pancaptiques

Zijian Zhou Miaojing Shi Holger Caesar

Résumé

La génération de graphes de scène panoptiques (PSG) vise à atteindre une compréhension complète des images en segmentant simultanément les objets et en prédictionnant leurs relations. Cependant, le problème de la distribution en queue longue des relations entraîne des résultats insatisfaisants dans les applications réelles. Les méthodes précédentes s'appuient principalement sur l'information visuelle ou utilisent une information linguistique limitée, comme les noms d'objets ou de relations, ce qui fait passer sous silence l'utilité de l'information linguistique. En exploitant les progrès récents des grands modèles linguistiques (LLMs), nous proposons d'utiliser l'information linguistique pour aider à la prédiction des relations, en particulier pour celles rares. À cette fin, nous introduisons le modèle de stimulation vision-linguistique (VLPrompt), qui extrait l'information visuelle des images et l'information linguistique des LLMs. Ensuite, grâce à un réseau stimulant basé sur un mécanisme d'attention, il réalise une prédiction précise des relations. Nos expériences approfondies montrent que VLPrompt surpasse significativement les méthodes précédentes de pointe sur le jeu de données PSG, démontrant ainsi l'efficacité de l'intégration de l'information linguistique et la réduction du problème de distribution en queue longue des relations. Le code est disponible à l'adresse \url{https://github.com/franciszzj/TP-SIS}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp