HyperAIHyperAI

Command Palette

Search for a command to run...

GraghVQA : Réseaux de neurones graphiques guidés par le langage pour la réponse aux questions visuelles basée sur les graphes

Weixin Liang Yanhao Jiang Zixuan Liu

Résumé

Les images sont bien plus qu’un simple ensemble d’objets ou d’attributs : elles représentent un réseau de relations entre des objets interconnectés. Le Scene Graph est apparu comme une nouvelle modalité pour une représentation graphique structurée des images. Dans un Scene Graph, les objets sont modélisés comme des nœuds reliés par des relations binaires, représentées sous forme d’arêtes. Afin de soutenir la réponse aux questions sur les Scene Graphs, nous proposons GraphVQA, un cadre basé sur les réseaux de neurones graphiques guidés par le langage, qui traduit et exécute une question en langage naturel à travers plusieurs itérations d’échanges d’informations entre les nœuds du graphe. Nous explorons l’espace de conception du cadre GraphVQA et discutons des compromis inhérents aux différentes choix architecturaux. Nos expériences sur le jeu de données GQA montrent que GraphVQA surpasser largement le modèle de pointe (88,43 % contre 94,78 %).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
GraghVQA : Réseaux de neurones graphiques guidés par le langage pour la réponse aux questions visuelles basée sur les graphes | Articles | HyperAI