il y a 8 mois

Résumé

La génération de graphes de scène panoptiques (PSG) vise à atteindre une compréhension complète des images en segmentant simultanément les objets et en prédictionnant leurs relations. Cependant, le problème de la distribution en queue longue des relations entraîne des résultats insatisfaisants dans les applications réelles. Les méthodes précédentes s'appuient principalement sur l'information visuelle ou utilisent une information linguistique limitée, comme les noms d'objets ou de relations, ce qui fait passer sous silence l'utilité de l'information linguistique. En exploitant les progrès récents des grands modèles linguistiques (LLMs), nous proposons d'utiliser l'information linguistique pour aider à la prédiction des relations, en particulier pour celles rares. À cette fin, nous introduisons le modèle de stimulation vision-linguistique (VLPrompt), qui extrait l'information visuelle des images et l'information linguistique des LLMs. Ensuite, grâce à un réseau stimulant basé sur un mécanisme d'attention, il réalise une prédiction précise des relations. Nos expériences approfondies montrent que VLPrompt surpasse significativement les méthodes précédentes de pointe sur le jeu de données PSG, démontrant ainsi l'efficacité de l'intégration de l'information linguistique et la réduction du problème de distribution en queue longue des relations. Le code est disponible à l'adresse \url{https://github.com/franciszzj/TP-SIS}.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Représentation Multimodale

Réponse À Des Questions Visuelles

Traitement Du Langage Naturel

Multimodal

Tâche

Zijian Zhou Miaojing Shi Holger Caesar

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Représentation Multimodale

Réponse À Des Questions Visuelles

Traitement Du Langage Naturel

Multimodal

Tâche

Zijian Zhou Miaojing Shi Holger Caesar

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

VLPrompt : Vision-Langage pour la Génération de Graphes de Scène Pancaptiques

Zijian Zhou Miaojing Shi Holger Caesar

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VLPrompt : Vision-Langage pour la Génération de Graphes de Scène Pancaptiques

Zijian Zhou Miaojing Shi Holger Caesar

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VLPrompt : Vision-Langage pour la Génération de Graphes de Scène Pancaptiques

Zijian Zhou Miaojing Shi Holger Caesar

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters