vor 2 Monaten

CDLM: Cross-Dokumentensprachmodellierung

Avi Caciularu; Arman Cohan; Iz Beltagy; Matthew E. Peters; Arie Cattan; Ido Dagan

Abstract

Wir stellen einen neuen Vortrainingsansatz vor, der für die Mehrdokumentensprachmodellierung ausgelegt ist und zwei zentrale Ideen in das maskierte Sprachmodellierungsziel einbezieht. Erstens betrachten wir Dokumente nicht mehr isoliert, sondern führen das Vortraining über Mengen von mehreren verwandten Dokumenten durch, um das Modell zum Lernen von interdokumentaren Beziehungen anzuspornen. Zweitens verbessern wir moderne Long-Range-Transformers durch die Einführung dynamischer globaler Aufmerksamkeit, die Zugang zu der gesamten Eingabe hat, um maskierte Token vorherzusagen. Wir veröffentlichen CDLM (Cross-Document Language Model), ein neues allgemeines Sprachmodell für den Mehrdokumentenkontext, das sich einfach auf nachgelagerte Aufgaben anwenden lässt. Unsere umfangreiche Analyse zeigt, dass beide Ideen für den Erfolg des CDLM wesentlich sind und synergetisch zusammenwirken, um neue Standarts in mehreren Mehrtextaufgaben zu setzen. Der Quellcode und die Modelle sind unter https://github.com/aviclu/CDLM verfügbar.