vor 2 Monaten

Nachbarschaftskontrastives Lernen für wissenschaftliche Dokumentrepräsentationen mit Zitierungsembeddungen

Malte Ostendorff; Nils Rethmeier; Isabelle Augenstein; Bela Gipp; Georg Rehm

Abstract

Das Lernen von wissenschaftlichen Dokumentdarstellungen kann durch kontrastive Lernziele erheblich verbessert werden, wobei die Herausforderung darin besteht, positive und negative Trainingsbeispiele zu erstellen, die die gewünschten Ähnlichkeitssemantiken kodieren. Frühere Arbeiten stützen sich auf diskrete Zitierbeziehungen zur Generierung von Kontrastbeispielen. Diskrete Zitate erzwingen jedoch eine harte Grenze für die Ähnlichkeit. Dies steht im Widerspruch zu lernverfahren basierend auf Ähnlichkeit und ignoriert, dass wissenschaftliche Arbeiten sehr ähnlich sein können, obwohl sie keine direkte Zitation enthalten – ein zentrales Problem bei der Suche nach verwandten Forschungsarbeiten. Stattdessen verwenden wir kontrolliertes Sampling der nächsten Nachbarn über Zitiergraphen-Embeddings für kontrastives Lernen. Diese Kontrolle ermöglicht es uns, kontinuierliche Ähnlichkeit zu lernen, schwer zu erlernende Negative und Positive zu sampeln und Kollisionen zwischen negativen und positiven Beispielen durch Kontrolle des Sampling-Abstands zwischen ihnen zu vermeiden. Die resultierende Methode SciNCL übertrifft den aktuellen Stand der Technik im SciDocs-Benchmark. Darüber hinaus zeigen wir, dass sie modell-effizient trainiert (oder angepasst) werden kann und mit neueren trainings-effizienten Methoden kombiniert werden kann. Überraschenderweise übertrifft sogar das Training eines allgemeinen Sprachmodells auf diese Weise in-domänen vortrainierte Baseline-Modelle.