Réseaux de Mémoire Dynamiques pour le Questionnement Visuel et Textuel

Les architectures de réseaux neuronaux dotées de mécanismes de mémoire et d'attention présentent certaines capacités de raisonnement nécessaires pour la réponse aux questions. L'une de ces architectures, le réseau de mémoire dynamique (Dynamic Memory Network, DMN), a obtenu une précision élevée sur une variété de tâches linguistiques. Cependant, il n'a pas été démontré que l'architecture obtenait des résultats solides pour la réponse aux questions lorsque les faits supports ne sont pas marqués lors de l'entraînement, ni qu'elle pouvait être appliquée à d'autres modalités telles que les images. À partir d'une analyse du DMN, nous proposons plusieurs améliorations à ses modules de mémoire et d'entrée. Avec ces modifications, nous introduisons un nouveau module d'entrée pour les images afin de pouvoir répondre à des questions visuelles. Notre nouveau modèle DMN+ améliore l'état de l'art tant sur le jeu de données Visual Question Answering que sur le jeu de données \babi-10k pour la réponse aux questions textuelles sans supervision des faits supports.