ByT5: Auf ein zukunftsfähiges Token-freies Modell mit vortrainierten Byte-to-Byte-Modellen

Die meisten weit verbreiteten vortrainierten Sprachmodelle arbeiten mit Token-Sequenzen, die Wort- oder Subwort-Einheiten entsprechen. Im Gegensatz dazu bieten tokenfreie Modelle, die direkt auf rohem Text (Bytes oder Zeichen) operieren, viele Vorteile: Sie können Text in jeder Sprache ohne weitere Vorbereitung verarbeiten, sind robuster gegenüber Störungen und minimieren den technischen Schuldenstand, indem sie komplexe und fehleranfällige Textvorverarbeitungspipelines entfernen. Da Byte- oder Zeichensequenzen länger als Token-Sequenzen sind, haben frühere Arbeiten zu tokenfreien Modellen oft neue Modellarchitekturen eingeführt, um die Kosten der direkten Verarbeitung von rohem Text zu reduzieren. In dieser Arbeit zeigen wir, dass eine Standard-Transformer-Architektur mit minimalen Änderungen verwendet werden kann, um Byte-Sequenzen zu verarbeiten. Wir charakterisieren die Handlungsspielräume hinsichtlich der Anzahl der Parameter, der Trainings-FLOPs und der Inferenzgeschwindigkeit und demonstrieren, dass bytebasierte Modelle mit ihren tokenbasierten Gegenstücken konkurrieren können. Zudem beweisen wir, dass bytebasierte Modelle erheblich robuster gegenüber Störungen sind und bei Aufgaben, die anfällig für Rechtschreibung und Aussprache sind, bessere Leistungen erzielen. Als Teil unserer Beiträge veröffentlichen wir ein neues Set vortrainierter bytebasierter Transformer-Modelle basierend auf der T5-Architektur sowie den gesamten Code und Daten, die in unseren Experimenten verwendet wurden.