HyperAIHyperAI
il y a 2 mois

ByT5 : Vers un avenir sans jetons avec des modèles pré-entraînés byte-to-byte

Linting Xue; Aditya Barua; Noah Constant; Rami Al-Rfou; Sharan Narang; Mihir Kale; Adam Roberts; Colin Raffel
ByT5 : Vers un avenir sans jetons avec des modèles pré-entraînés byte-to-byte
Résumé

La plupart des modèles de langage pré-entraînés les plus utilisés fonctionnent sur des séquences de jetons correspondant à des unités de mots ou de sous-mots. En comparaison, les modèles sans jeton qui traitent directement le texte brut (octets ou caractères) offrent de nombreux avantages : ils peuvent traiter du texte dans n'importe quelle langue dès leur utilisation, ils sont plus robustes au bruit, et ils minimisent la dette technique en supprimant les pipelines de prétraitement du texte complexes et sujets aux erreurs. Étant donné que les séquences d'octets ou de caractères sont plus longues que les séquences de jetons, les travaux antérieurs sur les modèles sans jeton ont souvent introduit de nouvelles architectures de modèles conçues pour répartir le coût du traitement direct du texte brut. Dans cet article, nous montrons qu'une architecture Transformer standard peut être utilisée avec des modifications minimes pour traiter des séquences d'octets. Nous analysons les compromis en termes de nombre de paramètres, de FLOPs d'entraînement et de vitesse d'inférence, et démontrons que les modèles au niveau octet sont compétitifs par rapport à leurs homologues au niveau jeton. Nous montrons également que les modèles au niveau octet sont beaucoup plus robustes au bruit et performants sur des tâches sensibles à l'orthographe et à la prononciation. Comme partie intégrante de notre contribution, nous mettons à disposition un nouveau ensemble de modèles Transformer pré-entraînés au niveau octet basés sur l'architecture T5, ainsi que tout le code et les données utilisés dans nos expériences.

ByT5 : Vers un avenir sans jetons avec des modèles pré-entraînés byte-to-byte | Articles de recherche récents | HyperAI