HyperAIHyperAI

Command Palette

Search for a command to run...

Charformer: Schnelle Zeichen-Transformers durch gradientenbasierte Subword-Tokenisierung

Yi Tay Vinh Q. Tran Sebastian Ruder Jai Gupta Hyung Won Chung Dara Bahri Zhen Qin Simon Baumgartner Cong Yu Donald Metzler

Zusammenfassung

Zustandsbestimmende Modelle in der Verarbeitung natürlicher Sprache stützen sich auf getrennte, starre Subwort-Tokenisierungsalgorithmen, was ihre Generalisierungsfähigkeit und Anpassungsfähigkeit an neue Anwendungsszenarien einschränkt. In diesem Artikel stellen wir einen neuen modellbasierten Induktionsvorsatz vor, der die Subwort-Tokenisierung end-to-end als Teil des Modells lernt. Dazu führen wir einen weichen, gradientenbasierten Subwort-Tokenisierungsmodul (GBST) ein, der latente Subwort-Repräsentationen automatisch aus Zeichen in datengetriebener Weise lernt. Konkret enumeriert GBST Kandidaten für Subwort-Blöcke und lernt, diese positionsspezifisch mittels eines Block-Bewertungsnetzwerks zu bewerten. Zusätzlich stellen wir Charformer vor, ein tiefes Transformer-Modell, das GBST integriert und auf Byte-Ebene arbeitet. Durch umfangreiche Experimente auf englischen GLUE-, mehrsprachigen und fehlerbehafteten Textdatensätzen zeigen wir, dass Charformer eine Reihe von konkurrierenden Byte-basierten Baselines übertrifft und im Allgemeinen vergleichbare sowie gelegentlich bessere Ergebnisse als Subwort-basierte Modelle erzielt. Zudem ist Charformer äußerst schnell und beschleunigt sowohl herkömmliche Byte-basierte als auch Subwort-basierte Transformers um 28 % bis 100 %, ohne dabei die Leistungsfähigkeit zu beeinträchtigen. Wir sind überzeugt, dass diese Arbeit den Weg für hochleistungsfähige, tokenfreie Modelle ebnen wird, die vollständig end-to-end trainiert werden können.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp