Évaluation des plongements contextuels sur 54 langues en étiquetage morphosyntaxique, lemmatisation et analyse de dépendance

Nous présentons une évaluation approfondie de trois méthodes récemment proposées pour les plongements contextuels sur 89 corpus dans 54 langues du Universal Dependencies 2.3 (UD 2.3) dans trois tâches : l'étiquetage morphosyntaxique (POS tagging), la lemmatisation et l'analyse dépendancielle. En utilisant BERT, Flair et ELMo comme entrées de plongements préentraînés dans un fort point de référence de UDPipe 2.0, l'un des systèmes les mieux performants de la tâche partagée CoNLL 2018 et le gagnant global de l'EPE 2018, nous effectuons une comparaison un-à-un des trois méthodes de plongement contextuel, ainsi qu'une comparaison avec des plongements préentraînés similaires à word2vec et avec des plongements de mots basés sur les caractères d'une extrémité à l'autre. Nous rapportons des résultats d'avant-garde dans toutes les trois tâches par rapport aux résultats obtenus sur UD 2.2 lors de la tâche partagée CoNLL 2018.