HyperAIHyperAI

Command Palette

Search for a command to run...

Étiquetage de séquences avec des représentations sous-mot contextuelles et non contextuelles : Évaluation multilingue

Benjamin Heinzerling Michael Strube

Résumé

Les plongements de sous-mots préentraînés contextuels et non contextuels sont désormais disponibles dans plus de 250 langues, permettant une traitement du langage naturel (NLP) massivement multilingue. Cependant, bien que l'offre de plongements préentraînés soit abondante, le manque criant d'évaluations systématiques rend difficile pour les praticiens le choix entre ces différentes options. Dans cette étude, nous menons une évaluation approfondie comparant les plongements de sous-mots non contextuels, à savoir FastText et BPEmb, ainsi qu'une méthode de représentation contextuelle, à savoir BERT, sur la reconnaissance d'entités nommées multilingue et l'étiquetage morphosyntaxique. Nous constatons que globalement, une combinaison de BERT, BPEmb et des représentations de caractères donne les meilleurs résultats à travers les langues et les tâches. Une analyse plus détaillée révèle différentes forces et faiblesses : Multilingual BERT (BERT multilingue) se distingue dans les langues disposant de ressources moyennes à élevées, mais est surpassé par les plongements de sous-mots non contextuels dans un cadre à faibles ressources.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Étiquetage de séquences avec des représentations sous-mot contextuelles et non contextuelles : Évaluation multilingue | Articles | HyperAI