HyperAIHyperAI
vor 9 Tagen

N-Grammer: Erweiterung von Transformers durch latente N-Gramme

Aurko Roy, Rohan Anil, Guangda Lai, Benjamin Lee, Jeffrey Zhao, Shuyuan Zhang, Shibo Wang, Ye Zhang, Shen Wu, Rigel Swavely, Phuong Dao, Christopher Fifty, Zhifeng Chen, Yonghui Wu
N-Grammer: Erweiterung von Transformers durch latente N-Gramme
Abstract

Transformer-Modelle sind in letzter Zeit zu einem der grundlegenden Architekturen im Bereich des natürlichen Sprachverstehens geworden, wodurch sich gleichzeitig ein erhebliches Interesse und eine starke Investition in die Skalierung dieser Modelle ergeben hat. Allerdings sind die Trainings- und Inferenzkosten dieser großen Transformer-Sprachmodelle prohibitiv, was eine verstärkte Forschung zur Entwicklung effizienterer Varianten erforderlich macht. In dieser Arbeit schlagen wir eine einfache, jedoch wirksame Modifikation der Transformer-Architektur vor, die sich an der Literatur zum statistischen Sprachmodellieren orientiert. Dabei ergänzen wir das Modell um n-Gramme, die aus einer diskreten latenten Darstellung der Textsequenz abgeleitet werden. Wir evaluieren unser Modell, das N-Grammer, im Bereich der Sprachmodellierung auf dem C4-Datensatz sowie im Bereich der Textklassifikation auf dem SuperGLUE-Datensatz und stellen fest, dass es mehrere starke Baselines, wie beispielsweise den Transformer und das Primer-Modell, übertrifft. Für Zwecke der Reproduzierbarkeit stellen wir unser Modell in Jax öffentlich zur Verfügung.