Multilinguale Konstituentenanalyse mit Selbst-Aufmerksamkeit und Vortraining

Wir zeigen, dass die Konstituentenanalyse (constituency parsing) von unsupervisierter Vorabtrainierung in verschiedenen Sprachen und unter einer Reihe von Vorabtrainierungsbedingungen profitiert. Zunächst vergleichen wir die Vorteile von keiner Vorabtrainierung, fastText, ELMo und BERT für das Englische und stellen fest, dass BERT ELMo übertrifft, vor allem aufgrund der erhöhten Modellkapazität, während ELMo seinerseits die nicht-kontextuellen fastText-Embeddings übertrifft. Wir finden auch heraus, dass Vorabtrainierung für alle 11 getesteten Sprachen vorteilhaft ist; jedoch sind große Modellgrößen (mehr als 100 Millionen Parameter) rechnerisch teuer, um für jede Sprache getrennte Modelle zu trainieren. Um diesen Nachteil zu beheben, zeigen wir, dass gemeinsame multilinguale Vorabtrainierung und Feinjustierung es ermöglicht, bis auf eine kleine Anzahl von Parametern alle Parameter zwischen zehn Sprachen im endgültigen Modell zu teilen. Die 10-fache Reduzierung der Modellgröße im Vergleich zum Feinjustieren eines Modells pro Sprache führt nur zu einer relativen Fehlerzunahme von 3,2 % insgesamt. Wir untersuchen ferner die Idee der gemeinsamen Feinjustierung und zeigen, dass sie Ressourcenarmen Sprachen einen Weg bietet, von den größeren Datensätzen anderer Sprachen zu profitieren. Schließlich demonstrieren wir neue Stand-of-the-Art-Ergebnisse für 11 Sprachen, darunter Englisch (95,8 F1) und Chinesisch (91,8 F1).