HyperAIHyperAI
vor 11 Tagen

Neuronale grammatische Fehlerkorrektursysteme mit unsupervisiertem Vortrainieren auf synthetischen Daten

{Marcin Junczys-Dowmunt, Roman Grundkiewicz, Kenneth Heafield}
Neuronale grammatische Fehlerkorrektursysteme mit unsupervisiertem Vortrainieren auf synthetischen Daten
Abstract

Erheblicher Aufwand wurde unternommen, um das Problem der Daten-Sparsamkeit im Bereich der neuronalen grammatischen Fehlerkorrektur (GEC) anzugehen. In dieser Arbeit stellen wir eine einfache und überraschend wirksame unsupervisierte Methode zur Generierung synthetischer Fehler vor, die auf Confusion Sets basiert, die aus einem Rechtschreibprüfer extrahiert wurden, um die Menge an Trainingsdaten zu erhöhen. Die synthetischen Daten werden verwendet, um ein Transformer-Sequenz-zu-Sequenz-Modell vorzu trainieren, das nicht nur eine starke Baseline, die auf authentischen, fehlerannotierten Daten trainiert wurde, übertrifft, sondern auch die Entwicklung eines praktikablen GEC-Systems ermöglicht, in Szenarien, in denen nur sehr wenig echte, fehlerannotierte Daten verfügbar sind. Die entwickelten Systeme erreichten beim BEA19-Shared-Task die ersten Plätze, wobei sie jeweils F$_{0.5}$-Werte von 69,47 im eingeschränkten Track und 64,24 im Low-Resource-Track auf dem Testset W{&}I+LOCNESS erzielten. Auf dem etablierten CoNLL-2014-Testset erzielen wir state-of-the-art-Ergebnisse von 64,16 M{mbox{$^2$}} für das eingereichte System und 61,30 M{mbox{$^2$}} für das eingeschränkte System, das auf den Daten von NUCLE und Lang-8 trainiert wurde.

Neuronale grammatische Fehlerkorrektursysteme mit unsupervisiertem Vortrainieren auf synthetischen Daten | Neueste Forschungsarbeiten | HyperAI