Command Palette
Search for a command to run...
CDLM: Cross-Dokumentensprachmodellierung
CDLM: Cross-Dokumentensprachmodellierung
Avi Caciularu Arman Cohan Iz Beltagy Matthew E. Peters Arie Cattan Ido Dagan
Zusammenfassung
Wir stellen einen neuen Vortrainingsansatz vor, der für die Mehrdokumentensprachmodellierung ausgelegt ist und zwei zentrale Ideen in das maskierte Sprachmodellierungsziel einbezieht. Erstens betrachten wir Dokumente nicht mehr isoliert, sondern führen das Vortraining über Mengen von mehreren verwandten Dokumenten durch, um das Modell zum Lernen von interdokumentaren Beziehungen anzuspornen. Zweitens verbessern wir moderne Long-Range-Transformers durch die Einführung dynamischer globaler Aufmerksamkeit, die Zugang zu der gesamten Eingabe hat, um maskierte Token vorherzusagen. Wir veröffentlichen CDLM (Cross-Document Language Model), ein neues allgemeines Sprachmodell für den Mehrdokumentenkontext, das sich einfach auf nachgelagerte Aufgaben anwenden lässt. Unsere umfangreiche Analyse zeigt, dass beide Ideen für den Erfolg des CDLM wesentlich sind und synergetisch zusammenwirken, um neue Standarts in mehreren Mehrtextaufgaben zu setzen. Der Quellcode und die Modelle sind unter https://github.com/aviclu/CDLM verfügbar.