75 Langues, 1 Modèle : Analyse des Dépendances Universelles

Nous présentons UDify, un modèle multilingue et multitâche capable de prédire avec précision les catégories grammaticales universelles, les caractéristiques morphologiques, les lemmes et les arbres de dépendance simultanément pour tous les 124 banques d'arbres de dépendance universelles (Universal Dependencies) couvrant 75 langues. En exploitant un modèle d'auto-attention BERT multilingue préformé sur 104 langues, nous avons constaté que l'ajustement fin du modèle sur l'ensemble des jeux de données concaténés ensemble, avec des classifieurs softmax simples pour chaque tâche UD, peut conduire à des scores UPOS, UFeats, Lemmas, UAS et LAS de pointe, sans nécessiter aucune composante récurrente ou spécifique à une langue. Nous évaluons UDify pour l'apprentissage multilingue, montrant que les langues à ressources limitées bénéficient le plus des annotations croisées linguistiques. Nous évaluons également l'apprentissage par transfert zéro-shot (zero-shot learning), avec des résultats suggérant que la formation multilingue fournit des prédictions UD solides même pour des langues sur lesquelles ni UDify ni BERT n'ont jamais été formés. Le code source de UDify est disponible à l'adresse https://github.com/hyperparticle/udify.