Plus d’Embeddings, de meilleurs labelleurs de séquences ?

Un travail récent propose une famille d’embeddings contextuels qui améliore significativement la précision des systèmes de labelisation de séquences par rapport aux embeddings non contextuels. Toutefois, il n’existe pas de conclusion définitive quant à la possibilité d’obtenir des labeliseurs de séquences plus performants en combinant différents types d’embeddings dans diverses configurations. Dans cet article, nous menons des expériences étendues sur 3 tâches, 18 jeux de données et 8 langues afin d’étudier l’impact de différentes concaténations d’embeddings sur la précision de la labelisation de séquences, et nous formulons trois observations : (1) la concaténation de plusieurs variantes d’embeddings conduit à une meilleure précision dans les contextes à ressources abondantes et trans-domaines, ainsi que dans certaines conditions de faibles ressources ; (2) la concaténation d’embeddings contextuels sous-motifs supplémentaires aux embeddings contextuels par caractères nuit à la précision dans les contextes à ressources extrêmement limitées ; (3) conformément à la conclusion (1), la concaténation d’embeddings contextuels supplémentaires similaires ne permet pas d’obtenir d’améliorations supplémentaires. Nous espérons que ces conclusions pourront aider à concevoir des labeliseurs de séquences plus puissants dans diverses configurations.