9日前
N-Grammer:潜在n-gramを活用したTransformerの拡張
Aurko Roy, Rohan Anil, Guangda Lai, Benjamin Lee, Jeffrey Zhao, Shuyuan Zhang, Shibo Wang, Ye Zhang, Shen Wu, Rigel Swavely, Phuong Dao, Christopher Fifty, Zhifeng Chen, Yonghui Wu

要約
近年、Transformerモデルは自然言語処理分野における基盤的なモデルの一つとして登場し、それに伴い、これらのモデルをスケーリングする取り組みに対する関心と投資が著しく高まっている。しかし、大規模なTransformer言語モデルの学習および推論コストは非常に高いため、より効率的なバリエーションの開発に関するさらなる研究が不可欠である。本研究では、統計的言語モデルに関する先行研究に着想を得て、テキスト系列の離散的潜在表現から構成されるn-gramをモデルに追加するという、シンプルながら有効なTransformerアーキテクチャの改良を提案する。我々は、C4データセットにおける言語モデリングおよびSuperGLUEデータセットにおけるテキスト分類の実験を通じて、提案モデル「N-Grammer」の性能を評価した結果、TransformerやPrimerといった強力なベースラインモデルを上回ることが明らかになった。本研究では再現性を確保するため、Jaxを用いたモデルのオープンソースを実施した。