HyperAIHyperAI
vor 2 Monaten

75 Sprachen, 1 Modell: Universelle Abhängigkeitsanalyse

Dan Kondratyuk; Milan Straka
75 Sprachen, 1 Modell: Universelle Abhängigkeitsanalyse
Abstract

Wir stellen UDify vor, ein multilinguales Mehrfach-Aufgabenmodell, das in der Lage ist, universelle Wortarten (part-of-speech), morphologische Merkmale, Lemmata und Abhängigkeitsbäume gleichzeitig für alle 124 Universal Dependencies Treebanks in 75 Sprachen präzise zu vorhersagen. Durch die Nutzung eines auf 104 Sprachen vortrainierten multilingualen BERT-Selbst-Aufmerksamkeitsmodells haben wir festgestellt, dass das Feinjustieren des Modells anhand aller zusammengefügten Datensätze mit einfachen Softmax-Klassifikatoren für jede UD-Aufgabe zu Stand-of-the-Art-Ergebnissen in Bezug auf UPOS, UFeats, Lemmata, UAS und LAS führen kann, ohne dass rekurrente oder sprachspezifische Komponenten erforderlich wären. Wir evaluieren UDify im Kontext des multilingualen Lernens und zeigen, dass sprachliche Ressourcenarmut von kreuzsprachlichen Annotationen am meisten profitiert. Zudem evaluieren wir es im Hinblick auf zero-shot-Lernen; die Ergebnisse deuten darauf hin, dass multilinguale Schulung starke UD-Vorhersagen auch für Sprachen ermöglicht, die weder UDify noch BERT jemals trainiert haben. Der Code für UDify ist unter https://github.com/hyperparticle/udify verfügbar.

75 Sprachen, 1 Modell: Universelle Abhängigkeitsanalyse | Neueste Forschungsarbeiten | HyperAI