Apprentissage Contrastif de Voisinage pour les Représentations de Documents Scientifiques avec des Plongements de Citations

L'apprentissage des représentations de documents scientifiques peut être considérablement amélioré grâce à des objectifs d'apprentissage par contraste, où le défi réside dans la création d'échantillons d'entraînement positifs et négatifs qui encodent les sémantiques de similarité souhaitées. Les travaux antérieurs s'appuient sur des relations de citation discrètes pour générer des échantillons de contraste. Cependant, les citations discrètes imposent une coupure stricte à la similarité, ce qui est contre-intuitif pour l'apprentissage basé sur la similarité et ignore que les articles scientifiques peuvent être très similaires malgré l'absence d'une citation directe – un problème central pour trouver des recherches connexes. À la place, nous utilisons un échantillonnage contrôlé des plus proches voisins sur les plongements du graphe de citations pour l'apprentissage par contraste. Ce contrôle nous permet d'apprendre une similarité continue, de sélectionner des échantillons négatifs et positifs difficiles à apprendre, et également d'éviter les collisions entre les échantillons négatifs et positifs en contrôlant la marge d'échantillonnage entre eux. La méthode résultante, SciNCL, surpasses l'état de l'art sur le benchmark SciDocs. De plus, nous montrons qu'elle peut entraîner (ou ajuster) des modèles efficacement avec peu d'échantillons, et qu'elle peut être combinée avec des méthodes récentes efficaces en entraînement. Peut-être surprenant, même l'entraînement d'un modèle linguistique général selon cette méthode dépasse les modèles pré-entraînés dans le domaine spécifique.