vor 11 Tagen

Charformer: Schnelle Zeichen-Transformers durch gradientenbasierte Subword-Tokenisierung

Yi Tay, Vinh Q. Tran, Sebastian Ruder, Jai Gupta, Hyung Won Chung, Dara Bahri, Zhen Qin, Simon Baumgartner, Cong Yu, Donald Metzler

Details der Forschungsarbeit anzeigen

Charformer: Schnelle Zeichen-Transformers durch gradientenbasierte Subword-Tokenisierung

Abstract

Zustandsbestimmende Modelle in der Verarbeitung natürlicher Sprache stützen sich auf getrennte, starre Subwort-Tokenisierungsalgorithmen, was ihre Generalisierungsfähigkeit und Anpassungsfähigkeit an neue Anwendungsszenarien einschränkt. In diesem Artikel stellen wir einen neuen modellbasierten Induktionsvorsatz vor, der die Subwort-Tokenisierung end-to-end als Teil des Modells lernt. Dazu führen wir einen weichen, gradientenbasierten Subwort-Tokenisierungsmodul (GBST) ein, der latente Subwort-Repräsentationen automatisch aus Zeichen in datengetriebener Weise lernt. Konkret enumeriert GBST Kandidaten für Subwort-Blöcke und lernt, diese positionsspezifisch mittels eines Block-Bewertungsnetzwerks zu bewerten. Zusätzlich stellen wir Charformer vor, ein tiefes Transformer-Modell, das GBST integriert und auf Byte-Ebene arbeitet. Durch umfangreiche Experimente auf englischen GLUE-, mehrsprachigen und fehlerbehafteten Textdatensätzen zeigen wir, dass Charformer eine Reihe von konkurrierenden Byte-basierten Baselines übertrifft und im Allgemeinen vergleichbare sowie gelegentlich bessere Ergebnisse als Subwort-basierte Modelle erzielt. Zudem ist Charformer äußerst schnell und beschleunigt sowohl herkömmliche Byte-basierte als auch Subwort-basierte Transformers um 28 % bis 100 %, ohne dabei die Leistungsfähigkeit zu beeinträchtigen. Wir sind überzeugt, dass diese Arbeit den Weg für hochleistungsfähige, tokenfreie Modelle ebnen wird, die vollständig end-to-end trainiert werden können.