De nombreuses langues, un analyseur

Nous formons un modèle multilingue pour l'analyse de dépendance et nous l'utilisons pour analyser des phrases dans plusieurs langues. Le modèle d'analyse utilise (i) des grappes de mots multilingues et des plongements (embeddings) ; (ii) des informations linguistiques au niveau du jeton (token-level language information) ; et (iii) des caractéristiques spécifiques à chaque langue (étiquettes morphosyntaxiques fines, fine-grained POS tags). Cette représentation d'entrée permet à l'analyseur non seulement d'analyser efficacement dans plusieurs langues, mais aussi de généraliser entre les langues en se basant sur les universaux linguistiques et les similarités typologiques, ce qui le rend plus performant pour apprendre à partir d'annotations limitées. Les performances de notre analyseur sont comparables à celles de fortes lignes de base dans une gamme de scénarios de données, y compris lorsque la langue cible dispose d'une grande banque d'arbres (treebank), d'une petite banque d'arbres ou n'a pas du tout de banque d'arbres pour l'apprentissage.