HyperAIHyperAI

Command Palette

Search for a command to run...

Génération de séquences avec des représentations mixtes

Lijun Wu Shufang Xie Yingce Xia Fan Yang Tao Qin Jianhuang Lai Tie-Yan Liu

Résumé

La tokenisation constitue la première étape de nombreuses tâches de traitement automatique du langage naturel (NLP) et joue un rôle crucial dans les modèles NLP basés sur les réseaux neuronaux. Des méthodes de tokenisation telles que l’encodage par paires d’octets (Byte-Pair Encoding, BPE), capables de réduire considérablement la taille du vocabulaire et de gérer efficacement les mots hors vocabulaire (out-of-vocabulary), se sont révélées particulièrement efficaces et sont largement adoptées pour les tâches de génération de séquences. Bien qu’un grand nombre de méthodes de tokenisation existent, il n’existe pas de consensus général sur celle qui est la meilleure. Dans ce travail, nous proposons d’exploiter des représentations mixtes issues de différentes méthodes de tokenisation afin d’améliorer les performances des modèles dans les tâches de génération de séquences, en tirant parti des caractéristiques uniques et des avantages propres à chaque méthode. Plus précisément, nous introduisons une nouvelle architecture de modèle permettant d’intégrer ces représentations mixtes, ainsi qu’un algorithme de co-enseignement pour mieux exploiter la diversité des différentes approches de tokenisation. Notre méthode obtient des améliorations significatives sur des tâches de traduction automatique neuronale (NMT) impliquant six paires de langues (par exemple, anglais ↔ allemand, anglais ↔ roumain), ainsi que sur une tâche de résumé abstrait.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp