DeepStruct: Vortraining von Sprachmodellen für Strukturvorhersage

Wir stellen eine Methode vor, die die strukturelle Verständnisfähigkeit von Sprachmodellen verbessert. Im Gegensatz zu früheren Ansätzen, die die Modelle durch aufgabenspezifische Erweiterungen feintunen, pretrained wir Sprachmodelle auf einer Sammlung von aufgabenunabhängigen Korpora, um Strukturen aus Texten zu generieren. Unser strukturales Pretraining ermöglicht das Zero-Shot-Transfer des gelernten Wissens der Modelle über strukturelle Aufgaben. Wir untersuchen die Leistung dieser Methode anhand von 28 Datensätzen, die 10 strukturale Vorhersageaufgaben abdecken, darunter Open Information Extraction (offene Informationsextraktion), Joint Entity and Relation Extraction (gemeinsame Entitäts- und Beziehungsextraktion), Named Entity Recognition (NER) (benannte Entitätenerkennung), Relation Classification (Beziehungsklassifikation), Semantic Role Labeling (semantische Rollenbezeichnung), Event Extraction (Ereignisextraktion), Coreference Resolution (Koreferenzauflösung), Factual Probe (Faktprüfung), Intent Detection (Absichtserkennung) und Dialogue State Tracking (Dialogzustandverfolgung). Wir erweitern das Pretraining durch die Integration von aufgabenspezifischen Trainingsdatensätzen. Wir zeigen, dass ein Sprachmodell mit 10 Milliarden Parametern in den meisten Aufgaben nicht trivial transferiert und bei 21 der 28 evaluierten Datensätze den aktuellen Stand der Technik erreicht.