il y a 4 mois

Résumé

La plupart des travaux existants en réponse aux questions visuelles (VQA) se concentrent sur l’amélioration de la précision des réponses prédites, tout en négligeant les explications. Nous affirmons que l’explication d’une réponse revêt une importance égale, voire supérieure, par rapport à la réponse elle-même, car elle rend le processus de formulation et de réponse aux questions plus compréhensible et traçable. À cet effet, nous proposons une nouvelle tâche, la VQA-E (VQA avec explication), dans laquelle les modèles computationnels doivent générer une explication conjointement avec la réponse prédite. Nous avons d’abord construit un nouveau jeu de données, puis formulé le problème de la VQA-E dans une architecture d’apprentissage multi-tâches. Notre jeu de données VQA-E est automatiquement dérivé du jeu de données VQA v2 en exploitant intelligemment les légendes disponibles. Une étude utilisateurs a été menée afin de valider la qualité des explications synthétisées par notre méthode. Nous montrons quantitativement que la supervision supplémentaire apportée par les explications permet non seulement de produire des phrases textuelles pertinentes justifiant les réponses, mais aussi d’améliorer la performance de prédiction des réponses. Notre modèle surpasse nettement les méthodes de pointe sur le jeu de données VQA v2.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 4 mois

Réponse À Des Questions Visuelles

Multimodal

Réponse Aux Questions Intelligente

Traitement Du Langage Naturel

Multimodal

Tâche

Li Qing Tao Qingyi Joty Shafiq Cai Jianfei Luo Jiebo

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 4 mois

Réponse À Des Questions Visuelles

Multimodal

Réponse Aux Questions Intelligente

Traitement Du Langage Naturel

Multimodal

Tâche

Li Qing Tao Qingyi Joty Shafiq Cai Jianfei Luo Jiebo

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

VQA-E : Explication, élaboration et amélioration de vos réponses aux questions visuelles

Li Qing Tao Qingyi Joty Shafiq Cai Jianfei Luo Jiebo

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VQA-E : Explication, élaboration et amélioration de vos réponses aux questions visuelles

Li Qing Tao Qingyi Joty Shafiq Cai Jianfei Luo Jiebo

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VQA-E : Explication, élaboration et amélioration de vos réponses aux questions visuelles

Li Qing Tao Qingyi Joty Shafiq Cai Jianfei Luo Jiebo

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters