vor 11 Tagen

SPECTER: Dokumentebene-Repräsentationslernen mithilfe von Zitierungsinformierten Transformers

Arman Cohan, Sergey Feldman, Iz Beltagy, Doug Downey, Daniel S. Weld

Abstract

Darstellungslernen ist ein entscheidender Bestandteil von natürlichen Sprachverarbeitungssystemen. Moderne Transformer-Sprachmodelle wie BERT erlernen leistungsfähige Textdarstellungen, doch diese Modelle zielen auf Token- und Satzebene ausgerichtete Trainingsziele ab und nutzen keine Informationen über die Beziehungen zwischen Dokumenten, was ihre Fähigkeit zur Dokumentebenen-Darstellung einschränkt. Für Anwendungen auf wissenschaftliche Dokumente, wie Klassifikation und Empfehlung, führen die durch solche Embeddings erzielten Leistungen zu hervorragenden Ergebnissen bei Endaufgaben. Wir stellen SPECTER vor, eine neue Methode zur Erzeugung von Dokumentebenen-Embeddings wissenschaftlicher Dokumente, die auf der Vortrainierung eines Transformer-Sprachmodells mit einem starken Signal für Dokumentebenen-Beziehungen basiert: dem Zitiergraphen. Im Gegensatz zu bestehenden vortrainierten Sprachmodellen kann SPECTER problemlos für nachgeschaltete Anwendungen eingesetzt werden, ohne dass eine aufgabe-spezifische Feinabstimmung erforderlich ist. Zusätzlich stellen wir SciDocs vor, eine neue Evaluierungsbenchmarks, die sieben Aufgaben auf Dokumentebene umfasst, darunter Zitierprognose, Dokumentklassifikation und Empfehlung, um die weitere Forschung zu Dokumentebenen-Modellen zu fördern. Wir zeigen, dass SPECTER eine Vielzahl von konkurrierenden Baselines auf dieser Benchmarks übertrifft.