il y a 8 mois

Résumé

Les récentes avancées dans le domaine du langage et de la vision grâce aux réseaux neuronaux ont été appliquées avec succès à des tâches simples de réponse à des questions visuelles sur une seule image. Cependant, pour aborder les problèmes de réponse à des questions en conditions réelles sur des collections multimédias telles que des photos personnelles, il est nécessaire d'examiner l'ensemble des collections comprenant des séquences de photos ou de vidéos. Lorsqu'on répond à des questions provenant d'une grande collection, un problème naturel consiste à identifier les extraits qui soutiennent la réponse. Dans cet article, nous décrivons un nouveau réseau neuronal appelé Focal Visual-Text Attention network (FVTA) pour le raisonnement collectif en réponse visuelle aux questions, où sont présentées à la fois des informations visuelles et textuelles sous forme d'images et de métadonnées textuelles. Le FVTA introduit une approche intégrée qui utilise un processus hiérarchique pour déterminer dynamiquement sur quels médias et à quel moment se concentrer dans les données séquentielles afin de répondre à la question. Non seulement le FVTA peut-il répondre efficacement aux questions, mais il fournit également les justifications sur lesquelles reposent les résultats du système pour obtenir ces réponses. Le FVTA obtient des performances de pointe sur l'ensemble de données MemexQA et des résultats compétitifs sur l'ensemble de données MovieQA.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Réponse À Des Questions Visuelles

Junwei Liang Lu Jiang Liangliang Cao Li-Jia Li Alexander Hauptmann

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Réponse À Des Questions Visuelles

Junwei Liang Lu Jiang Liangliang Cao Li-Jia Li Alexander Hauptmann

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Attention Visuelle et Textuelle Focale pour le Répondant aux Questions Visuelles

Junwei Liang Lu Jiang Liangliang Cao Li-Jia Li Alexander Hauptmann

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Attention Visuelle et Textuelle Focale pour le Répondant aux Questions Visuelles

Junwei Liang Lu Jiang Liangliang Cao Li-Jia Li Alexander Hauptmann

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Attention Visuelle et Textuelle Focale pour le Répondant aux Questions Visuelles

Junwei Liang Lu Jiang Liangliang Cao Li-Jia Li Alexander Hauptmann

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters