ZEN : Pré-entraînement d’un encodeur de texte chinois amélioré par des représentations n-grammes

L'entraînement préalable des encodeurs de texte traite généralement le texte comme une séquence de jetons correspondant à de petites unités textuelles, telles que des fragments de mots en anglais et des caractères en chinois. Il omet l'information portée par des granularités textuelles plus importantes, ce qui rend difficile pour les encodeurs d'adapter certaines combinaisons de caractères. Cela entraîne une perte d'informations sémantiques importantes, particulièrement problématique pour le chinois car cette langue ne possède pas de limites explicites entre les mots. Dans cet article, nous proposons ZEN, un encodeur de texte chinois (Z) basé sur BERT et amélioré par des représentations n-grammes, où différentes combinaisons de caractères sont prises en compte lors de l'entraînement. Ainsi, les frontières potentielles entre les mots ou les phrases sont explicitement pré-entraînées et affinées avec l'encodeur de caractères (BERT). Par conséquent, ZEN intègre l'information complète tant de la séquence de caractères que des mots ou phrases qu'elle contient. Les résultats expérimentaux illustrent l'efficacité de ZEN sur une série de tâches en traitement du langage naturel (NLP) chinois. Nous montrons que ZEN, en utilisant moins de ressources que d'autres encodeurs publiés, peut atteindre des performances au niveau de l'état de l'art sur la plupart des tâches. De plus, il est démontré que des performances raisonnables peuvent être obtenues lorsque ZEN est entraîné sur un corpus restreint, ce qui est crucial pour appliquer les techniques d'entraînement préalable à des scénarios avec peu de données. Le code source et les modèles pré-entraînés de ZEN sont disponibles à l'adresse suivante : https://github.com/sinovation/zen.