Analyse des tweets en dépendances universelles

Nous étudions le problème d'analyse des tweets à l'aide des Dépendances Universelles. Nous étendons les directives UD pour couvrir les constructions spéciales dans les tweets qui influencent la segmentation en tokens, l'étiquetage morpho-syntaxique et les dépendances étiquetées. En utilisant ces directives élargies, nous créons un nouveau corpus arborescent de tweets en anglais (Tweebank v2) qui est quatre fois plus grand que le Tweebank v1 (non étiqueté) introduit par Kong et al. (2014). Nous caractérisons les désaccords entre nos annotateurs et montrons qu'il est difficile de fournir une annotation cohérente en raison de l'ambiguïté dans la compréhension et l'explication des tweets. Néanmoins, en utilisant ce nouveau corpus arborescent, nous construisons un système pipeline pour analyser les tweets bruts selon les Dépendances Universelles. Pour surmonter le bruit d'annotation sans sacrifier l'efficacité computationnelle, nous proposons une nouvelle méthode permettant de distiller un ensemble de 20 analyseurs basés sur des transitions en un seul analyseur. Notre analyseur réalise une amélioration de 2,2 points en LAS par rapport à la ligne de base non ensamblée et surpasses les analyseurs d'état de l'art sur d'autres corpus arborescents tant en précision qu'en rapidité.