HyperAIHyperAI
il y a 17 jours

HopRetriever : Récupérer des sauts sur Wikipedia pour répondre à des questions complexes

Shaobo Li, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Chengjie Sun, Zhenzhou Ji, Bingquan Liu
HopRetriever : Récupérer des sauts sur Wikipedia pour répondre à des questions complexes
Résumé

La collecte de preuves pertinentes à partir de grandes corpora de texte (par exemple, Wikipedia) constitue un défi majeur pour les systèmes de réponse à questions dans un domaine ouvert (open-domain QA). En particulier, pour les questions à plusieurs sauts (multi-hop open-domain QA), il est nécessaire de rassembler des éléments de preuve dispersés afin de soutenir l’extraction de la réponse. Dans cet article, nous proposons un nouveau objectif de récupération, appelé hop (saut), afin de capturer les preuves de raisonnement implicites présentes dans Wikipedia pour répondre à des questions complexes. Plus précisément, un hop est défini comme la combinaison d’un lien hypertexte et du document de destination correspondant. Le lien hypertexte est encodé sous forme d’un mention embedding, qui modélise les connaissances structurées relatives à la manière dont l’entité cible du lien est mentionnée dans le contexte textuel, tandis que le document de destination est encodé sous forme de document embedding, représentant les connaissances non structurées qu’il contient. À partir de cette définition, nous avons conçu HopRetriever, un système de récupération de hops sur Wikipedia, capable de répondre à des questions complexes. Les expériences menées sur le jeu de données HotpotQA montrent que HopRetriever surpasse largement les méthodes précédemment publiées de récupération de preuves. En outre, notre approche permet également d’obtenir des interprétations quantifiables du processus de collecte des preuves.