Generative Pretrained Structured Transformers: Unüberwachte syntaktische Sprachmodelle im großen Maßstab

Ein syntaktisches Sprachmodell (SLM) generiert einen Satz mit dessen syntaktischem Baum schrittweise von links nach rechts. Wir stellen Generative Pretrained Structured Transformers (GPST) vor, ein unüberwachtes SLM, das in großem Maßstab in der Lage ist, aus Rohdaten und mit hoher Parallelität von Grund auf vortrainiert zu werden. GPST umgeht die Einschränkungen früherer SLMs, wie zum Beispiel die Abhängigkeit von Goldbäumen und sequentieller Trainierung. Es besteht aus zwei Komponenten: einem üblichen SLM, das durch einen einseitigen Sprachmodellierungsverlust überwacht wird, und einem zusätzlichen Kompositionsmodell, das syntaktische Parse-Bäume induziert und Konstituentendarstellungen berechnet und durch einen bidirektionalen Sprachmodellierungsverlust überwacht wird. Wir schlagen eine Darstellungsurvogate vor, um die gemeinsame parallele Trainierung der beiden Modelle im Hard-EM-Stil zu ermöglichen. GPST wird auf OpenWebText vortrainiert, einem Korpus mit 9 Milliarden Token, und wir zeigen die Überlegenheit von GPST gegenüber GPT-2 gleicher Größe in zahlreichen Aufgaben, die sowohl Sprachverständnis als auch Spracherzeugung abdecken. Gleichzeitig übertrifft GPST bestehende unüberwachte SLMs bei der Induktion von links nach rechts gerichteter Grammatiken erheblich und bietet dabei eine wesentliche Beschleunigung der Trainierung.请注意,"Darstellungsurvogate" 这个词在德语中并不常见,因此我保留了 "representation surrogate" 的英文形式,并在其前加上了德语中的 "Darstellung"(表示)以帮助理解。如果需要进一步的专业术语调整,请告知。