il y a 20 jours

Peut-on utiliser un modèle linguistique préentraîné gelé pour une récupération neurale zéro-shot sur des questions centrées sur les entités ?

Yasuto Hoshi, Daisuke Miyashita, Yasuhiro Morioka, Youyang Ng, Osamu Torii, Jun Deguchi

Résumé

Les récupérateurs de documents neuronaux, notamment la récupération par passage dense (DPR), ont dépassé les récupérateurs classiques basés sur le matching lexical, tels que BM25, lorsqu’ils sont ajustés et évalués sur des jeux de données spécifiques de réponse à des questions. Toutefois, il a été démontré que les récupérateurs denses existants ne généralisent pas efficacement, ni hors domaine ni même à l’intérieur d’un même domaine comme Wikipedia, en particulier lorsque l’entité nommée dans une question constitue un indice principal pour la récupération. Dans cet article, nous proposons une approche visant à améliorer la généralisation à l’intérieur du domaine, en utilisant les embeddings générés par un modèle linguistique figé entraîné sur les entités propres au domaine. En évitant tout ajustement (fine-tuning), nous explorons la possibilité d’utiliser le savoir riche contenu dans un modèle linguistique préentraîné pour des tâches de récupération. La méthode proposée surpasse les DPR classiques sur les questions centrées sur les entités dans le domaine Wikipedia, et atteint des performances quasi comparables à celles de BM25 et du modèle SPAR de pointe. Nous montrons également que l’utilisation de clés contextualisées permet d’obtenir des améliorations significatives par rapport à BM25 lorsque les noms d’entités sont composés de mots courants. Nos résultats démontrent la faisabilité d’une méthode de récupération zéro-shot pour les questions centrées sur les entités dans le domaine Wikipedia, où les DPR ont traditionnellement peiné à performer.