Vers une meilleure analyse en UD : plongements de mots contextuels profonds, ensemble et concaténation de treebanks

Ce document décrit notre système (HIT-SCIR) soumis à la tâche commune CoNLL 2018 sur le parsing multilingue du texte brut aux dépendances universelles. Notre soumission s'appuie sur le système vainqueur de Stanford pour la tâche commune CoNLL 2017 et apporte deux extensions efficaces : 1) l'intégration des plongements de mots contextuels profonds dans tant l'étiqueteur de parties du discours que le parseur ; 2) l'agrégation de parseurs entraînés avec différentes initialisations. Nous explorons également différentes méthodes de concaténation des arbres syntaxiques pour améliorations supplémentaires. Les résultats expérimentaux sur les données de développement montrent l'efficacité de nos méthodes. Dans l'évaluation finale, notre système a été classé premier selon LAS (75,84 %) et a largement surpassé les autres systèmes.