vor 11 Tagen

Autoregressive strukturierte Vorhersage mit Sprachmodellen

Tianyu Liu, Yuchen Jiang, Nicholas Monath, Ryan Cotterell, Mrinmaya Sachan

Abstract

In den letzten Jahren hat sich in der natürlichen Sprachverarbeitung (NLP) ein Paradigmenwechsel zugunsten der Verwendung vortrainierter Sprachmodelle (Pretrained Language Models, PLM) für eine Vielzahl von Aufgaben ergeben. Dennoch ergeben sich zahlreiche komplexe Gestaltungsentscheidungen hinsichtlich der Darstellung strukturierter Inhalte (z. B. markierter Text, Coreferenzketten), sodass diese von PLMs angemessen erfasst werden können. Vorangegangene Arbeiten zur strukturierten Vorhersage mit PLMs transformieren die strukturierten Ausgaben typischerweise in eine eindimensionale Sequenz, was die Qualität der erlernten strukturellen Informationen einschränkt und zu einer schlechteren Leistung im Vergleich zu klassischen diskriminativen Modellen führt. In dieser Arbeit beschreiben wir einen Ansatz, bei dem Strukturen autoregressiv als Sequenzen von Aktionen mit PLMs modelliert werden, wodurch Abhängigkeiten innerhalb der Struktur ohne Informationsverlust erlernt werden können. Unser Ansatz erreicht die neue State-of-the-Art-Leistung auf allen untersuchten strukturierten Vorhersageaufgaben, nämlich Named Entity Recognition, End-to-End-Relationsextraktion und Coreferenzauflösung.