Récupération de passages denses pour la réponse aux questions dans un domaine ouvert

La réponse à des questions dans un domaine ouvert repose sur une récupération efficace de passages afin de sélectionner des contextes candidats, où les modèles traditionnels à espace vectoriel creux, tels que TF-IDF ou BM25, constituent la méthode de référence. Dans ce travail, nous démontrons qu’une récupération peut être mise en œuvre de manière pratique en utilisant uniquement des représentations denses, où les embeddings sont appris à partir d’un petit nombre de questions et de passages via un cadre dual-encodeur simple. Lorsqu’elle est évaluée sur une large gamme de jeux de données de réponse à questions dans un domaine ouvert, notre récupérateur dense surpasse largement un système Lucene-BM25 performant, avec une amélioration absolue de 9 à 19 % en précision de récupération des 20 meilleurs passages, et contribue à établir un nouveau record sur plusieurs benchmarks de réponse à questions dans un domaine ouvert pour notre système QA end-to-end.