Récupération non supervisée d'information dense avec apprentissage contrastif

Récemment, la recherche d'information a vu émerger des récupérateurs denses fondés sur des réseaux neuronaux, en tant qu'alternative aux méthodes classiques à faible densité reposant sur la fréquence des termes. Ces modèles ont obtenu des résultats de pointe sur des jeux de données et des tâches pour lesquels de grandes quantités de données d'entraînement sont disponibles. Toutefois, ils se transforment mal vers de nouvelles applications ne disposant d’aucune donnée d’entraînement, et sont surpassés par des méthodes non supervisées basées sur la fréquence des termes, telles que BM25. Dans ce travail, nous explorons les limites de l’apprentissage contrastif comme méthode d’entraînement de récupérateurs denses non supervisés, et montrons qu’il permet d’atteindre de fortes performances dans diverses configurations de recherche. Sur le benchmark BEIR, notre modèle non supervisé bat BM25 sur 11 des 15 jeux de données en termes de Recall@100. Lorsqu’il est utilisé comme étape de pré-entraînement avant un fin-tuning sur quelques milliers d’exemples dans le domaine ou sur le grand jeu de données MS~MARCO, notre modèle contrastif conduit à des améliorations significatives sur BEIR. Enfin, nous évaluons notre approche pour la recherche multilingue, où les données d’entraînement sont encore plus rares qu’en anglais, et montrons que notre méthode permet d’obtenir de très bons résultats non supervisés. Notre modèle montre également une forte capacité de transfert cross-lingue lorsqu’il est fin-tuné uniquement sur des données supervisées en anglais et évalué sur des langues à faibles ressources comme le swahili. Nous démontrons que nos modèles non supervisés peuvent effectuer une recherche cross-lingue entre différents scripts, par exemple récupérer des documents en anglais à partir de requêtes en arabe, ce qui serait impossible avec les méthodes basées sur le matching de termes.