HyperAIHyperAI
il y a 18 jours

Pondération des termes de requête en bout à bout

{Marc Najork, Mike Bendersky, Kashyap Kolipaka, Xingyu Wang, Wensong Xu, Swaraj Khadanga, Shaleen Gupta, Mingyang Zhang, Tao Chen, Weize Kong, Cheng Li, Karan Samel}
Résumé

Les systèmes de récupération lexicale fondés sur le modèle « bag-of-words » restent les méthodes les plus couramment utilisées dans les applications de recherche du monde réel. Récemment, les méthodes d'apprentissage profond ont montré des résultats prometteurs pour améliorer les performances de récupération, mais elles sont coûteuses à exécuter en mode en ligne, difficiles à intégrer dans les systèmes de production existants, et peuvent ne pas généraliser efficacement dans des scénarios de récupération hors domaine. À la place, nous nous appuyons sur les récupérateurs lexicaux en proposant un modèle TW-BERT (Term Weighting BERT). Ce modèle apprend à prédire un poids pour chaque terme d'entrée n-gramme (par exemple, unigrammes et bigrammes) dans une requête. Ces poids inférés, combinés aux termes eux-mêmes, peuvent être directement utilisés par un système de récupération pour effectuer une recherche. Pour optimiser ces poids, TW-BERT intègre la fonction de notation utilisée par le moteur de recherche, telle que BM25, afin de noter les paires requête-document. À partir de paires requête-document échantillonnées, nous pouvons calculer une perte de classement sur ces scores de correspondance, permettant d’optimiser les poids des termes de requête appris de manière end-to-end. L’alignement de TW-BERT avec les fonctions de notation des moteurs de recherche réduit au minimum les modifications nécessaires pour son intégration dans les applications de production existantes, contrairement aux méthodes d’apprentissage profond actuelles qui exigent une optimisation supplémentaire de l’infrastructure et des exigences matérielles. Les poids appris peuvent être facilement exploités par des récupérateurs lexicaux standards ainsi que par d'autres techniques de récupération, comme l’extension de requête. Nous démontrons que TW-BERT améliore les performances de récupération par rapport à des bases de référence robustes sur le corpus MSMARCO, ainsi que dans des scénarios de récupération hors domaine sur les jeux de données TREC.