BEIR : Un benchmark hétérogène pour l’évaluation zéro-shot des modèles de recherche d’information

Les modèles existants de recherche d'information (IR) basés sur les réseaux neuronaux ont souvent été étudiés dans des environnements homogènes et restreints, ce qui a considérablement limité les perspectives sur leurs capacités de généralisation hors distribution (OOD). Pour remédier à ce problème et faciliter aux chercheurs une évaluation large et approfondie de l'efficacité de leurs modèles, nous introduisons Benchmarking-IR (BEIR), un cadre d'évaluation robuste et hétérogène pour la recherche d'information. Nous avons sélectionné soigneusement 18 jeux de données publiques provenant de tâches et domaines variés de recherche textuelle, et évalué 10 systèmes de recherche d'état de l'art, incluant des architectures lexicales, creuses, denses, à interaction tardive et à re-rangement, sur le benchmark BEIR. Nos résultats montrent que BM25 constitue une base solide, tandis que les modèles basés sur le re-rangement et l'interaction tardive atteignent en moyenne les meilleurs performances en mode zero-shot, bien que cela s'accompagne d'un coût computationnel élevé. À l'inverse, les modèles de recherche denses et creux sont plus efficaces sur le plan computationnel, mais se situent souvent en dessous des autres approches, soulignant ainsi un important potentiel d'amélioration de leurs capacités de généralisation. Nous espérons que ce cadre permettra une évaluation et une compréhension plus approfondies des systèmes de recherche existants, et contribuera à accélérer les progrès vers des systèmes futurs plus robustes et généralisables. BEIR est disponible publiquement à l'adresse suivante : https://github.com/UKPLab/beir.