il y a 10 jours

Modèle basé sur BERT et à architecture Siamese pour le classement de la pertinence dans la recherche web évalué sur un nouveau jeu de données tchèque

Matěj Kocián, Jakub Náplava, Daniel Štancl, Vladimír Kadlec

Résumé

Les moteurs de recherche web se concentrent sur la fourniture de résultats hautement pertinents en quelques centaines de millisecondes. Les modèles pré-entraînés de type transformateur linguistique, tels que BERT, sont donc difficiles à utiliser dans ce contexte en raison de leurs exigences computationnelles élevées. Nous présentons une approche en temps réel pour le problème de classement de documents, fondée sur une architecture siamoise basée sur BERT. Ce modèle est déjà déployé dans un moteur de recherche commercial et améliore les performances en production de plus de 3 %. À des fins de recherche et d’évaluation supplémentaires, nous mettons à disposition DaReCzech, un ensemble de données unique comprenant 1,6 million de paires requête-document en tchèque, avec des niveaux de pertinence attribués manuellement. Nous libérons également Small-E-Czech, un modèle linguistique Electra-small pré-entraîné sur un grand corpus tchèque. Nous pensons que ces ressources soutiendront les efforts des communautés de recherche axées sur la pertinence des résultats de recherche ainsi que celles centrées sur les systèmes multilingues.