Enseigner aux machines à lire et comprendre

L'enseignement de la lecture de documents en langage naturel aux machines reste un défi insaisissable. Les systèmes de lecture automatique peuvent être évalués sur leur capacité à répondre à des questions posées sur le contenu des documents qu'ils ont analysés, mais jusqu'à présent, il manquait des jeux de données d'entraînement et de test à grande échelle pour ce type d'évaluation. Dans cette étude, nous définissons une nouvelle méthodologie qui résout cette problématique et fournit des données de compréhension de lecture supervisée à grande échelle. Cela nous permet de développer une classe de réseaux neuronaux profonds basés sur l'attention qui apprennent à lire des documents réels et à répondre à des questions complexes avec un minimum de connaissances préalables sur la structure du langage.