Verbesserung des strukturbewussten Encoders mit extrem begrenzten Daten für graphbasierte Abhängigkeitsanalyse

Abhängigkeitsparsen ist eine zentrale grundlegende Aufgabe im Bereich des natürlichen Sprachverstehens, bei der die syntaktische Struktur eines Eingabesatzes analysiert wird, indem die syntaktischen Beziehungen zwischen den Wörtern aufgezeigt werden. Um die Leistung der Abhängigkeitsparsen zu verbessern, hat sich gezeigt, dass die Nutzung bestehender Abhängigkeitsparser sowie zusätzlicher Daten – beispielsweise durch semi-supervisiertes Lernen – wirksam ist, selbst wenn die endgültigen Parser auf fehlerhaften (allerdings umfangreichen) Daten trainiert werden. In diesem Paper stellen wir einen erschreckend einfachen Ansatz zur Verbesserung der graphbasierten Abhängigkeitsparsen vor, bei dem ein strukturbewusster Encoder zunächst auf automatisch geparssten Daten vortrainiert wird, indem die Wortabhängigkeiten vorhergesagt werden, und anschließend auf Gold-Abhängigkeitsbäumen feinabgestimmt wird. Dies unterscheidet sich von der üblichen Vortrainingsstrategie, bei der die Kontextwörter entlang der Abhängigkeitspfade vorhergesagt werden sollen. Experimentelle Ergebnisse und Analysen belegen die Wirksamkeit und Robustheit unseres Ansatzes, der von Daten profitiert – selbst wenn diese Rauschen enthalten und von verschiedenen Parsern verarbeitet wurden. Unser Ansatz übertrifft starke Baselines unter unterschiedlichen Bedingungen, sowohl hinsichtlich verschiedener Abhängigkeitsstandards als auch unterschiedlicher Modellarchitekturen, die bei Vortrainieren und Feinabstimmen verwendet werden. Vor allem zeigt eine weitere Analyse, dass bereits 2.000 automatisch geparsste Sätze ausreichen, um eine Verbesserung zu erzielen, wenn ein einfacher BERT-large-basierter Parser vortrainiert wird, ohne dass zusätzliche Parameter erforderlich sind.