HyperAIHyperAI
il y a 11 jours

Charformer : Transformateurs de caractères rapides grâce à une tokenisation sous-mot basée sur le gradient

Yi Tay, Vinh Q. Tran, Sebastian Ruder, Jai Gupta, Hyung Won Chung, Dara Bahri, Zhen Qin, Simon Baumgartner, Cong Yu, Donald Metzler
Charformer : Transformateurs de caractères rapides grâce à une tokenisation sous-mot basée sur le gradient
Résumé

Les modèles de pointe en traitement du langage naturel s'appuient sur des algorithmes de tokenisation sous-mot rigides et séparés, ce qui limite leur capacité de généralisation et leur adaptation à de nouveaux contextes. Dans cet article, nous proposons une nouvelle hypothèse inductive pour les modèles, qui apprend la tokenisation sous-mot de manière end-to-end intégrée au modèle lui-même. À cette fin, nous introduisons un module de tokenisation sous-mot basé sur des gradients souples (GBST), capable d’apprendre automatiquement des représentations latentes sous-mot à partir de caractères de manière data-driven. Plus précisément, le GBST énumère des blocs sous-mot candidats et apprend à les noter de manière positionnelle via un réseau de notation des blocs. Nous introduisons également Charformer, un modèle profond de type Transformer intégrant le GBST et opérant au niveau des octets. À travers des expériences étendues sur les jeux de données anglais GLUE, multilingues et bruités, nous montrons que Charformer surpasse une série de modèles de référence au niveau des octets tout en se maintenant généralement au niveau des modèles basés sur les sous-mots, et parfois en les dépassant. En outre, Charformer est particulièrement rapide, améliorant la vitesse des Transformers standards au niveau des octets et au niveau des sous-mots respectivement de 28 % à 100 %, tout en maintenant une qualité compétitive. Nous pensons que ce travail ouvre la voie à des modèles hautement performants, libres de tokenisation, entraînés de manière entièrement end-to-end.

Charformer : Transformateurs de caractères rapides grâce à une tokenisation sous-mot basée sur le gradient | Articles de recherche récents | HyperAI