CEDR : Embeddings Contextualisés pour le Classement de Documents

Bien que les architectures de classement neuronal aient récemment reçu une attention considérable, beaucoup moins d'attention a été portée aux représentations terminologiques utilisées comme entrée pour ces modèles. Dans cette étude, nous examinons comment deux modèles de langage préentraînés contextualisés (ELMo et BERT) peuvent être exploités pour le classement ad hoc de documents. À travers des expériences sur les benchmarks TREC, nous constatons que plusieurs architectures de classement neuronal existantes peuvent bénéficier du contexte supplémentaire fourni par les modèles de langage contextualisés. De plus, nous proposons une approche conjointe qui intègre le vecteur de classification de BERT dans les modèles neuronaux existants et montrons qu'elle surpasses les méthodes de référence ad hoc les plus avancées. Nous appelons cette approche conjointe CEDR (Contextualized Embeddings for Document Ranking). Nous abordons également les défis pratiques liés à l'utilisation de ces modèles pour le classement, notamment la longueur maximale d'entrée imposée par BERT et les impacts sur les performances en temps réel des modèles de langage contextualisés.