HyperAIHyperAI
il y a 17 jours

Phrase saillante attentive à la récupération dense : Un récupérateur dense peut-il imiter un récupérateur creux ?

Xilun Chen, Kushal Lakhotia, Barlas Oğuz, Anchit Gupta, Patrick Lewis, Stan Peshterliev, Yashar Mehdad, Sonal Gupta, Wen-tau Yih
Phrase saillante attentive à la récupération dense : Un récupérateur dense peut-il imiter un récupérateur creux ?
Résumé

Malgré leur popularité récente et leurs avantages bien connus, les récupérateurs denses peinent encore à égaler les méthodes creuses telles que BM25 en ce qui concerne la correspondance fiable des phrases pertinentes et des entités rares présentes dans la requête, ainsi qu’en généralisation sur des données hors domaine. On a soutenu que cette limitation est inhérente aux modèles denses. Nous contredit cette affirmation en introduisant le Salient Phrase Aware Retriever (SPAR), un récupérateur dense doté de la capacité de correspondance lexicale propre aux modèles creux. Nous démontrons qu’un modèle lexical dense Λ peut être entraîné pour imiter un modèle creux, et que SPAR est construit en enrichissant un récupérateur dense classique avec Λ. Expérimentalement, SPAR obtient des performances supérieures sur une variété de tâches, incluant cinq jeux de données de question-réponse, la tâche de récupération de passages MS MARCO, ainsi que les benchmarks EntityQuestions et BEIR pour l’évaluation hors domaine, dépassant ainsi les performances des meilleurs récupérateurs denses et creux actuels. Le code et les modèles de SPAR sont disponibles à l’adresse suivante : https://github.com/facebookresearch/dpr-scale/tree/main/spar

Phrase saillante attentive à la récupération dense : Un récupérateur dense peut-il imiter un récupérateur creux ? | Articles de recherche récents | HyperAI