il y a 7 mois

Résumé

Ce travail vise à résoudre le problème de réponse à des questions basées sur des images (QA) grâce à de nouveaux modèles et ensembles de données. Dans notre étude, nous proposons d'utiliser des réseaux neuronaux et des plongements sémantiques visuels, sans passer par des étapes intermédiaires telles que la détection d'objets et la segmentation d'images, pour prédire les réponses à des questions simples concernant les images. Notre modèle performe 1,8 fois mieux que les seuls résultats publiés sur un ensemble de données existant en QA d'images. Nous présentons également un algorithme de génération de questions qui transforme les descriptions d'images, largement disponibles, en forme QA. Cet algorithme a été utilisé pour produire un ensemble de données plus important d'un ordre de grandeur, avec une distribution plus équilibrée des réponses. Une série de résultats baselines sur ce nouvel ensemble de données est également présentée.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Réponse À Des Questions Visuelles

Multimodal

Représentation Multimodale

Multimodal

Tâche

Mengye Ren; Ryan Kiros; Richard Zemel

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Réponse À Des Questions Visuelles

Multimodal

Représentation Multimodale

Multimodal

Tâche

Mengye Ren; Ryan Kiros; Richard Zemel

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Exploration des modèles et des données pour le questionnement d'images

Mengye Ren; Ryan Kiros; Richard Zemel

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Exploration des modèles et des données pour le questionnement d'images

Mengye Ren; Ryan Kiros; Richard Zemel

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Exploration des modèles et des données pour le questionnement d'images

Mengye Ren; Ryan Kiros; Richard Zemel

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters