HyperAIHyperAI

Command Palette

Search for a command to run...

ByT5: Auf ein zukunftsfähiges Token-freies Modell mit vortrainierten Byte-to-Byte-Modellen

Linting Xue; Aditya Barua; Noah Constant; Rami Al-Rfou; Sharan Narang; Mihir Kale; Adam Roberts; Colin Raffel

Zusammenfassung

Die meisten weit verbreiteten vortrainierten Sprachmodelle arbeiten mit Token-Sequenzen, die Wort- oder Subwort-Einheiten entsprechen. Im Gegensatz dazu bieten tokenfreie Modelle, die direkt auf rohem Text (Bytes oder Zeichen) operieren, viele Vorteile: Sie können Text in jeder Sprache ohne weitere Vorbereitung verarbeiten, sind robuster gegenüber Störungen und minimieren den technischen Schuldenstand, indem sie komplexe und fehleranfällige Textvorverarbeitungspipelines entfernen. Da Byte- oder Zeichensequenzen länger als Token-Sequenzen sind, haben frühere Arbeiten zu tokenfreien Modellen oft neue Modellarchitekturen eingeführt, um die Kosten der direkten Verarbeitung von rohem Text zu reduzieren. In dieser Arbeit zeigen wir, dass eine Standard-Transformer-Architektur mit minimalen Änderungen verwendet werden kann, um Byte-Sequenzen zu verarbeiten. Wir charakterisieren die Handlungsspielräume hinsichtlich der Anzahl der Parameter, der Trainings-FLOPs und der Inferenzgeschwindigkeit und demonstrieren, dass bytebasierte Modelle mit ihren tokenbasierten Gegenstücken konkurrieren können. Zudem beweisen wir, dass bytebasierte Modelle erheblich robuster gegenüber Störungen sind und bei Aufgaben, die anfällig für Rechtschreibung und Aussprache sind, bessere Leistungen erzielen. Als Teil unserer Beiträge veröffentlichen wir ein neues Set vortrainierter bytebasierter Transformer-Modelle basierend auf der T5-Architektur sowie den gesamten Code und Daten, die in unseren Experimenten verwendet wurden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
ByT5: Auf ein zukunftsfähiges Token-freies Modell mit vortrainierten Byte-to-Byte-Modellen | Paper | HyperAI