UNIQORN : Réponse unifiée aux questions sur les graphes de connaissances RDF et les textes en langage naturel

La question-réponse sur des données RDF telles que les graphes de connaissances a connu un progrès considérable, avec l’émergence de plusieurs systèmes performants capables de fournir des réponses précises à des questions posées en langage naturel ou sous forme télégraphique. Certains de ces systèmes intègrent des sources textuelles comme preuves supplémentaires dans le processus de réponse, mais sont incapables de produire des réponses fondées uniquement sur le texte. À l’inverse, les communautés de recherche en information retrieval (IR) et en traitement du langage naturel (NLP) se sont penchées sur la question-réponse sur texte, mais ces systèmes exploitent très peu les données sémantiques et les connaissances structurées. Ce papier présente une méthode pour des questions complexes capable de fonctionner de manière transparente sur un mélange de jeux de données RDF et de corpus textuels, ou sur des sources individuelles, dans un cadre unifié. Notre méthode, appelée UNIQORN, construit dynamiquement un graphe de contexte en récupérant des preuves pertinentes pour la question à partir des données RDF et/ou d’un corpus textuel, en utilisant des modèles BERT fine-tunés. Le graphe ainsi obtenu contient généralement toutes les preuves pertinentes, mais aussi une grande quantité de bruit. UNIQORN fait face à cette entrée bruitée grâce à un algorithme de graphe basé sur les arbres de Steiner groupés, qui identifie les meilleures candidatures de réponse dans le graphe de contexte. Les résultats expérimentaux sur plusieurs benchmarks de questions complexes impliquant plusieurs entités et relations montrent que UNIQORN surpasse significativement les méthodes de pointe pour la question-réponse hétérogène — tant en mode d’entraînement complet qu’en situation zero-shot. La méthodologie basée sur les graphes fournit des preuves interprétables par l’utilisateur tout au long du processus de réponse.