Recherche d'information adaptative pour la réponse à des questions dans un domaine ouvert

La recherche d'information constitue une étape essentielle dans les systèmes de réponse à des questions ouvertes, afin d'extraire efficacement des preuves à partir d'un grand corpus. Récemment, des approches itératives se sont révélées efficaces pour traiter des questions complexes, en récupérant de nouvelles preuves de manière récursive à chaque étape. Toutefois, presque toutes les approches itératives existantes reposent sur des stratégies prédéfinies : soit elles appliquent plusieurs fois la même fonction de récupération, soit elles fixent un ordre prédéterminé entre différentes fonctions de récupération, ce qui limite leur capacité à s'adapter aux diverses exigences posées par des questions variées. Dans cet article, nous proposons une nouvelle stratégie adaptative de recherche d'information pour les systèmes de réponse à questions ouvertes, nommée AISO. Plus précisément, l'ensemble du processus de récupération et de réponse est modélisé comme un processus de décision markovien partiellement observé, dans lequel trois types d'opérations de récupération (par exemple, BM25, DPR et liens hypertexte) ainsi qu'une opération de réponse sont définis comme des actions. Selon la politique apprise, AISO peut sélectionner de manière adaptative une action de récupération appropriée à chaque étape, afin de rechercher les preuves manquantes, en se basant sur les preuves collectées et sur la reformulation de la requête ; ou bien produire directement la réponse lorsque l'ensemble des preuves disponibles est suffisant pour répondre à la question. Des expériences menées sur SQuAD Open et HotpotQA fullwiki — deux benchmarks représentatifs de la réponse à questions ouvertes à un seul saut (single-hop) et à plusieurs sauts (multi-hop) — montrent qu’AISO surpasser tous les méthodes de référence basées sur des stratégies prédéfinies, tant en évaluation de la récupération qu’en évaluation de la réponse.