Viele Sprachen, ein Parser

Wir trainieren ein mehrsprachiges Modell für die Abhängigkeitsanalyse und verwenden es, um Sätze in mehreren Sprachen zu analysieren. Das Analysemodell nutzt (i) mehrsprachige Wortcluster und -einbettungen; (ii) sprachspezifische Informationen auf Token-Ebene; und (iii) sprachspezifische Merkmale (feingranulare Teil-of-Speech-Tags). Diese Eingabe-Darstellung ermöglicht es dem Parser, nicht nur effektiv in mehreren Sprachen zu analysieren, sondern auch über Sprachen hinweg zu generalisieren, indem es sich auf linguistische Universalien und typologische Ähnlichkeiten stützt. Dies macht ihn effektiver im Lernen aus begrenzten Annotationen. Die Leistung unseres Parsers ist in verschiedenen Daten-Szenarien vergleichsweise gut, einschließlich der Situationen, wenn die ZielSprache über eine große Baumbank, eine kleine Baumbank oder gar keine Baumbank für das Training verfügt.