Compréhension Machine à l'aide de Match-LSTM et Pointeur de Réponse

La compréhension automatique du texte est un problème important dans le traitement automatique des langues naturelles. Un jeu de données récemment publié, le Stanford Question Answering Dataset (SQuAD), offre un grand nombre de questions réelles et leurs réponses créées par des humains via le crowdsourcing. SQuAD fournit une plateforme de test exigeante pour évaluer les algorithmes de compréhension automatique, en partie parce que, comparé aux jeux de données précédents, les réponses dans SQuAD ne proviennent pas d'un petit ensemble de réponses candidates et ont des longueurs variables. Nous proposons une architecture neuronale complète pour cette tâche. Cette architecture repose sur le modèle match-LSTM, que nous avons proposé précédemment pour l'entailment textuel, et sur le Pointeur Net (Pointer Net), un modèle séquence-à-séquence proposé par Vinyals et al. (2015) pour contraindre les jetons de sortie à être issus des séquences d'entrée. Nous proposons deux méthodes d'utilisation du Pointeur Net pour notre tâche. Nos expériences montrent que nos deux modèles surpassent considérablement les meilleurs résultats obtenus par Rajpurkar et al. (2016) en utilisant la régression logistique et des caractéristiques élaborées manuellement.