Génération de séquences avec des représentations mixtes
La tokenisation constitue la première étape de nombreuses tâches de traitement automatique du langage naturel (NLP) et joue un rôle crucial dans les modèles NLP basés sur les réseaux neuronaux. Des méthodes de tokenisation telles que l’encodage par paires d’octets (Byte-Pair Encoding, BPE), capables de réduire considérablement la taille du vocabulaire et de gérer efficacement les mots hors vocabulaire (out-of-vocabulary), se sont révélées particulièrement efficaces et sont largement adoptées pour les tâches de génération de séquences. Bien qu’un grand nombre de méthodes de tokenisation existent, il n’existe pas de consensus général sur celle qui est la meilleure. Dans ce travail, nous proposons d’exploiter des représentations mixtes issues de différentes méthodes de tokenisation afin d’améliorer les performances des modèles dans les tâches de génération de séquences, en tirant parti des caractéristiques uniques et des avantages propres à chaque méthode. Plus précisément, nous introduisons une nouvelle architecture de modèle permettant d’intégrer ces représentations mixtes, ainsi qu’un algorithme de co-enseignement pour mieux exploiter la diversité des différentes approches de tokenisation. Notre méthode obtient des améliorations significatives sur des tâches de traduction automatique neuronale (NMT) impliquant six paires de langues (par exemple, anglais ↔ allemand, anglais ↔ roumain), ainsi que sur une tâche de résumé abstrait.