il y a 6 mois

Résumé

Le pont entre le sens visuel et la question constitue une étape cruciale pour améliorer la précision de la tâche de réponse aux questions visuelles (Visual Question Answering, VQA). Toutefois, la plupart des méthodes actuelles se concentrent principalement sur les mécanismes d’attention ou les relations visuelles pour raisonner la réponse, sans exploiter pleinement les caractéristiques aux différents niveaux sémantiques. Dans cet article, nous proposons un nouveau cadre de raisonnement visant à combler cet écart entre les caractéristiques visuelles et les indices sémantiques dans la tâche VQA. Notre méthode extrait d’abord les caractéristiques et les prédicats à partir de l’image et de la question. Ensuite, nous introduisons un nouveau cadre de raisonnement permettant d’apprendre efficacement, de manière fine à grossière, ces caractéristiques et prédicats de manière conjointe. Les résultats expérimentaux intensifs sur trois grands jeux de données VQA montrent que notre approche atteint une précision supérieure par rapport aux méthodes de pointe existantes. En outre, notre cadre de raisonnement offre également une approche explicite pour comprendre les décisions du réseau neuronal profond lors de la prédiction de la réponse.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Réponse À Des Questions Visuelles

Multimodal

Représentation Multimodale

Multimodal

Tâche

Binh X. Nguyen Tuong Do Huy Tran Erman Tjiputra Quang D. Tran Anh Nguyen

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Réponse À Des Questions Visuelles

Multimodal

Représentation Multimodale

Multimodal

Tâche

Binh X. Nguyen Tuong Do Huy Tran Erman Tjiputra Quang D. Tran Anh Nguyen

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Raisonnement de粗到细 pour la réponse aux questions visuelles

Binh X. Nguyen Tuong Do Huy Tran Erman Tjiputra Quang D. Tran Anh Nguyen

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Raisonnement de粗到细 pour la réponse aux questions visuelles

Binh X. Nguyen Tuong Do Huy Tran Erman Tjiputra Quang D. Tran Anh Nguyen

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Raisonnement de粗到细 pour la réponse aux questions visuelles

Binh X. Nguyen Tuong Do Huy Tran Erman Tjiputra Quang D. Tran Anh Nguyen

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters