StructBERT: Einbeziehung von Sprachstrukturen in die Vortrainierung für ein tiefes Sprachverständnis

Kürzlich hat das vortrainierte Sprachmodell BERT (und seine robust optimierte Version RoBERTa) viel Aufmerksamkeit im Bereich der natürlichen Sprachverarbeitung (NLU) gefunden und Spitzenwerte in verschiedenen NLU-Aufgaben wie Stimmungsanalyse, natürliche Sprachinferenz, semantische Textähnlichkeit und Fragebeantwortung erzielt. Inspiriert von den Arbeiten zur Linearisierungserkundung von Elman [8], haben wir BERT zu einem neuen Modell, StructBERT, erweitert, indem wir sprachliche Strukturen in das Vortraining einbezogen. Insbesondere trainieren wir StructBERT mit zwei Nebenaufgaben vor, um die sequenzielle Ordnung von Wörtern und Sätzen optimal auszunutzen, die jeweils sprachliche Strukturen auf Wort- und Satzebene nutzen. Dadurch wird das neue Modell an die unterschiedlichen Ebenen der Sprachverarbeitung angepasst, die von nachgeschalteten Aufgaben erforderlich sind. Das StructBERT-Modell mit strukturellem Vortraining liefert überraschend gute empirische Ergebnisse bei einer Vielzahl von nachgeschalteten Aufgaben, darunter eine Verbesserung des Standes der Technik beim GLUE-Benchmark auf 89,0 (was alle veröffentlichten Modelle übertrifft), einen F1-Wert bei SQuAD v1.1-Fragebeantwortung von 93,0 sowie eine Genauigkeit bei SNLI von 91,7.