HyperAIHyperAI

Command Palette

Search for a command to run...

Raisonnement de粗到细 pour la réponse aux questions visuelles

Binh X. Nguyen Tuong Do Huy Tran Erman Tjiputra Quang D. Tran Anh Nguyen

Résumé

Le pont entre le sens visuel et la question constitue une étape cruciale pour améliorer la précision de la tâche de réponse aux questions visuelles (Visual Question Answering, VQA). Toutefois, la plupart des méthodes actuelles se concentrent principalement sur les mécanismes d’attention ou les relations visuelles pour raisonner la réponse, sans exploiter pleinement les caractéristiques aux différents niveaux sémantiques. Dans cet article, nous proposons un nouveau cadre de raisonnement visant à combler cet écart entre les caractéristiques visuelles et les indices sémantiques dans la tâche VQA. Notre méthode extrait d’abord les caractéristiques et les prédicats à partir de l’image et de la question. Ensuite, nous introduisons un nouveau cadre de raisonnement permettant d’apprendre efficacement, de manière fine à grossière, ces caractéristiques et prédicats de manière conjointe. Les résultats expérimentaux intensifs sur trois grands jeux de données VQA montrent que notre approche atteint une précision supérieure par rapport aux méthodes de pointe existantes. En outre, notre cadre de raisonnement offre également une approche explicite pour comprendre les décisions du réseau neuronal profond lors de la prédiction de la réponse.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp