Trankit : Un outil léger basé sur les Transformers pour le traitement multilingue du langage naturel

Nous présentons Trankit, un outil léger basé sur les Transformers pour le traitement multilingue du langage naturel (NLP). Il fournit une pipeline d'entraînement pour des tâches fondamentales de NLP couvrant plus de 100 langues, ainsi que 90 pipelines préentraînés pour 56 langues. Basé sur un modèle de langage préentraîné de pointe, Trankit dépasse considérablement les pipelines NLP multilingues précédents en termes de segmentation de phrases, d'étiquetage des parties du discours, d'étiquetage des caractéristiques morphologiques et d'analyse syntaxique dépendancielle tout en maintenant une performance compétitive pour la tokenisation, l'expansion des tokens à plusieurs mots et la lemmatisation sur 90 bancs d'essai Universal Dependencies. Malgré l'utilisation d'un grand modèle préentraîné de type Transformer, notre outil reste efficace en termes d'utilisation de la mémoire et de vitesse. Ceci est rendu possible grâce à notre mécanisme innovant de plug-and-play avec des Adaptateurs où un modèle préentraîné multilingue est partagé entre les pipelines pour différentes langues. Notre outil, ainsi que les modèles et le code préentraînés, sont disponibles au public sur : https://github.com/nlp-uoregon/trankit. Un site web démonstration pour notre outil est également accessible à : http://nlp.uoregon.edu/trankit. Enfin, nous avons créé une vidéo démonstration pour Trankit disponible à : https://youtu.be/q0KGP3zGjGc.