il y a 7 mois

Résumé

Ce document présente un modèle de pointe pour la réponse à des questions visuelles (VQA), qui a remporté le premier prix du Défi VQA 2017. Le VQA est une tâche d'une importance considérable pour la recherche en intelligence artificielle, en raison de sa nature multimodale, de son protocole d'évaluation clair et de ses applications potentielles dans le monde réel. Les performances des réseaux neuronaux profonds pour le VQA dépendent fortement des choix d'architecture et d'hyperparamètres. Pour aider à la poursuite des recherches dans ce domaine, nous décrivons en détail notre modèle performant, bien que relativement simple. Après une exploration massive des architectures et des hyperparamètres représentant plus de 3 000 heures de calcul sur GPU, nous avons identifié plusieurs astuces et techniques qui ont contribué à son succès, notamment : les sorties sigmoïdes, les cibles d'apprentissage douces, les caractéristiques d'image issues de l'attention ascendante (bottom-up attention), les activations tanh avec portes (gated tanh activations), les plongements de sortie initialisés à l'aide de GloVe et Google Images, les grands mini-lots et le brassage intelligent des données d'entraînement. Nous fournissons une analyse détaillée de leur impact sur les performances afin d'aider les autres chercheurs à faire un choix approprié.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Réponse À Des Questions Visuelles

Multimodal

Apprentissage Profond

Domaine De Recherche

Multimodal

Tâche

Damien Teney; Peter Anderson; Xiaodong He; Anton van den Hengel

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Réponse À Des Questions Visuelles

Multimodal

Apprentissage Profond

Domaine De Recherche

Multimodal

Tâche

Damien Teney; Peter Anderson; Xiaodong He; Anton van den Hengel

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Conseils et astuces pour le réponse à des questions visuelles : apprentissages du défi 2017

Damien Teney; Peter Anderson; Xiaodong He; Anton van den Hengel

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Conseils et astuces pour le réponse à des questions visuelles : apprentissages du défi 2017

Damien Teney; Peter Anderson; Xiaodong He; Anton van den Hengel

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Conseils et astuces pour le réponse à des questions visuelles : apprentissages du défi 2017

Damien Teney; Peter Anderson; Xiaodong He; Anton van den Hengel

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters