Évaluation des modèles de recherche dense au niveau des jetons et des passages pour la récupération d'informations mathématiques

Avec le récent succès des méthodes de recherche dense basées sur les bi-encodeurs, des études ont appliqué cette approche à diverses tâches de recherche en aval avec une bonne efficacité et une pertinence spécifique au domaine. Récemment, nous avons également observé la présence de modèles de recherche dense dans les tâches de Math Information Retrieval (MIR), mais les systèmes les plus performants restent les méthodes de recherche classiques qui prennent en compte des caractéristiques structurales élaborées manuellement. Dans ce travail, nous tentons de combiner le meilleur des deux mondes : une méthode de recherche structurée bien définie pour une recherche efficace de formules et des modèles de recherche dense basés sur les bi-encodeurs pour capturer les similarités contextuelles. Plus précisément, nous avons évalué deux modèles bi-encodeurs représentatifs pour la recherche dense au niveau des jetons et au niveau des passages sur des tâches MIR récentes. Nos résultats montrent que les modèles bi-encodeurs sont hautement complémentaires aux méthodes existantes de recherche structurée, et nous sommes en mesure d'améliorer l'état de l'art sur les jeux de données MIR.