Tâches de pré-entraînement adaptées au domaine pour la récupération dense

L’entraînement préalable sur des jeux de données de plus en plus volumineux, accompagné d’une augmentation continue de la taille des modèles, s’est avéré être une recette éprouvée pour améliorer les performances sur presque toutes les tâches de traitement du langage naturel (NLP). Une exception notable concerne la récupération d’information, où les entraînements préalables supplémentaires n’ont jusqu’à présent pas produit de résultats convaincants. Nous montrons qu’avec une configuration d’entraînement préalable appropriée, cette barrière peut être levée. Nous le démontrons en entraînant préalablement de grands modèles bi-encodeurs sur : 1) un ensemble récemment publié de 65 millions de questions générées de manière synthétique, et 2) 200 millions de paires de commentaires postés dans un jeu de données existant de conversations Reddit mis à disposition par pushshift.io. Nous évaluons nos modèles sur un ensemble de benchmarks de récupération d’information et de récupération de dialogues, obtenant des améliorations substantielles par rapport aux modèles supervisés de référence.