Analyse de Dépendance Universelle à Partir de Zéro

Ce document décrit le système de Stanford pour la tâche partagée UD (Universal Dependencies) du CoNLL 2018. Nous présentons une pipeline neuronale complète qui prend en entrée un texte brut et effectue toutes les tâches requises par la tâche partagée, allant de la tokenisation et de la segmentation des phrases à l'étiquetage morpho-syntaxique (POS tagging) et à l'analyse de dépendance. Notre soumission unique a obtenu des performances très compétitives sur les grands arbres syntaxiques (treebanks). De plus, après avoir corrigé un bogue malheureux, notre système corrigé aurait occupé respectivement les 2e, 1er et 3e places selon les métriques d'évaluation officielles LAS (Labelled Attachment Score), MLAS (Multilingual LAS) et BLEX, et aurait largement surpassé tous les systèmes soumis dans les catégories d'arbres syntaxiques à ressources limitées selon toutes les métriques. Nous montrons également l'efficacité des différents composants du modèle grâce à des études d'ablation approfondies.