9日前

GLM:自己回帰的空白補完を用いた汎用言語モデルの事前学習

Zhengxiao Du, Yujie Qian, Xiao Liu, Ming Ding, Jiezhong Qiu, Zhilin Yang, Jie Tang
GLM:自己回帰的空白補完を用いた汎用言語モデルの事前学習
要約

事前学習アーキテクチャには、自己符号化モデル(例:BERT)、自己回帰モデル(例:GPT)、エンコーダデコーダモデル(例:T5)など、さまざまなタイプが存在する。しかし、これらいずれの事前学習フレームワークも、自然言語理解(NLU)、無条件生成、条件付き生成の3つの主要なタスクすべてにおいて最良のパフォーマンスを発揮するわけではない。本研究では、自己回帰的な空白補完(blank infilling)に基づく汎用言語モデル(General Language Model, GLM)を提案する。GLMは、2次元位置符号化(2D positional encodings)を導入し、スパンの予測順序を任意に設定可能とすることで、空白補完事前学習の性能を向上させた。その結果、NLUタスクにおいてBERTおよびT5を上回る性能を達成した。一方で、空白の数や長さを変更することで、GLMは異なる種類のタスクに応じた事前学習が可能となる。NLU、条件付き生成、無条件生成の広範なタスクにおいて、同じモデルサイズとデータ量を前提とした場合、GLMはBERT、T5、GPTを上回り、BERT Largeの1.25倍のパラメータ数を有する単一の事前学習モデルとして、最も優れた性能を示した。これにより、GLMがさまざまな下流タスクに高い汎化性を有していることが実証された。