Command Palette
Search for a command to run...
Conseils et astuces pour le réponse à des questions visuelles : apprentissages du défi 2017
Conseils et astuces pour le réponse à des questions visuelles : apprentissages du défi 2017
Damien Teney; Peter Anderson; Xiaodong He; Anton van den Hengel
Résumé
Ce document présente un modèle de pointe pour la réponse à des questions visuelles (VQA), qui a remporté le premier prix du Défi VQA 2017. Le VQA est une tâche d'une importance considérable pour la recherche en intelligence artificielle, en raison de sa nature multimodale, de son protocole d'évaluation clair et de ses applications potentielles dans le monde réel. Les performances des réseaux neuronaux profonds pour le VQA dépendent fortement des choix d'architecture et d'hyperparamètres. Pour aider à la poursuite des recherches dans ce domaine, nous décrivons en détail notre modèle performant, bien que relativement simple. Après une exploration massive des architectures et des hyperparamètres représentant plus de 3 000 heures de calcul sur GPU, nous avons identifié plusieurs astuces et techniques qui ont contribué à son succès, notamment : les sorties sigmoïdes, les cibles d'apprentissage douces, les caractéristiques d'image issues de l'attention ascendante (bottom-up attention), les activations tanh avec portes (gated tanh activations), les plongements de sortie initialisés à l'aide de GloVe et Google Images, les grands mini-lots et le brassage intelligent des données d'entraînement. Nous fournissons une analyse détaillée de leur impact sur les performances afin d'aider les autres chercheurs à faire un choix approprié.