PullNet : Réponse aux Questions de Domaine Ouvert avec une Récupération Itérative sur des Bases de Connaissances et des Textes

Nous considérons le domaine des questions-réponses ouvertes (QA) où les réponses sont tirées d'un corpus, d'une base de connaissances (KB) ou d'une combinaison des deux. Nous nous concentrons sur un contexte dans lequel un corpus est complété par une grande mais incomplète KB, et sur des questions nécessitant un raisonnement non trivial (par exemple, « multi-étapes »). Nous décrivons PullNet, un cadre intégré pour (1) apprendre ce qu'il faut extraire (du KB et/ou du corpus) et (2) raisonner avec ces informations hétérogènes afin de trouver la meilleure réponse. PullNet utilise un processus itératif pour construire un sous-graphe spécifique à la question qui contient des informations pertinentes. À chaque itération, un réseau de neurones convolutif sur graphe (graph CNN) est utilisé pour identifier les nœuds du sous-graphe qui doivent être développés en utilisant des opérations d'extraction (ou « pull ») sur le corpus et/ou la KB. Une fois que le sous-graphe est complet, un réseau de neurones convolutif similaire sur graphe est utilisé pour extraire la réponse du sous-graphe. Ce processus d'extraction et de raisonnement nous permet de répondre à des questions multi-étapes en utilisant de grandes bases de connaissances et des corpus. PullNet est faiblement supervisé, nécessitant des paires question-réponse mais pas des chemins d'inférence dorés. Expérimentalement, PullNet améliore l'état de l'art précédent, et dans le contexte où un corpus est utilisé avec une KB incomplète, ces améliorations sont souvent spectaculaires. PullNet est également souvent supérieur aux systèmes précédents dans un contexte uniquement basé sur la KB ou uniquement basé sur le texte.