SPECTER : Apprentissage des représentations au niveau du document à l’aide de Transformers informés par les citations

L’apprentissage de représentations constitue un élément fondamental des systèmes de traitement du langage naturel. Les modèles récents de langage basés sur l’architecture Transformer, comme BERT, apprennent des représentations textuelles puissantes, mais ces modèles sont conçus principalement pour des objectifs d’entraînement au niveau des tokens ou des phrases, sans tirer parti de l’information sur les relations interdocuments, ce qui limite leur capacité à représenter efficacement les documents au niveau global. Pour des applications sur des documents scientifiques, telles que la classification ou la recommandation, les embeddings ainsi obtenus permettent d’atteindre de très bons résultats sur les tâches finales. Nous proposons SPECTER, une nouvelle méthode pour générer des embeddings au niveau des documents à partir d’un modèle Transformer préentraîné sur un signal puissant de similarité entre documents : le graphe des citations. Contrairement aux modèles préentraînés existants, SPECTER peut être facilement appliqué à des applications en aval sans nécessiter de fine-tuning spécifique à la tâche. En outre, afin de stimuler davantage la recherche sur les modèles au niveau des documents, nous introduisons SciDocs, un nouveau benchmark d’évaluation comprenant sept tâches au niveau des documents, allant de la prédiction de citations à la classification et la recommandation de documents. Nous montrons que SPECTER surpasse plusieurs modèles de référence compétitifs sur ce benchmark.