HyperAIHyperAI
il y a 2 mois

Étiquetage de séquences avec des représentations sous-mot contextuelles et non contextuelles : Évaluation multilingue

Benjamin Heinzerling; Michael Strube
Étiquetage de séquences avec des représentations sous-mot contextuelles et non contextuelles : Évaluation multilingue
Résumé

Les plongements de sous-mots préentraînés contextuels et non contextuels sont désormais disponibles dans plus de 250 langues, permettant une traitement du langage naturel (NLP) massivement multilingue. Cependant, bien que l'offre de plongements préentraînés soit abondante, le manque criant d'évaluations systématiques rend difficile pour les praticiens le choix entre ces différentes options. Dans cette étude, nous menons une évaluation approfondie comparant les plongements de sous-mots non contextuels, à savoir FastText et BPEmb, ainsi qu'une méthode de représentation contextuelle, à savoir BERT, sur la reconnaissance d'entités nommées multilingue et l'étiquetage morphosyntaxique. Nous constatons que globalement, une combinaison de BERT, BPEmb et des représentations de caractères donne les meilleurs résultats à travers les langues et les tâches. Une analyse plus détaillée révèle différentes forces et faiblesses : Multilingual BERT (BERT multilingue) se distingue dans les langues disposant de ressources moyennes à élevées, mais est surpassé par les plongements de sous-mots non contextuels dans un cadre à faibles ressources.

Étiquetage de séquences avec des représentations sous-mot contextuelles et non contextuelles : Évaluation multilingue | Articles de recherche récents | HyperAI