ELECTRA:生成器ではなく識別器としての事前学習テキストエンコーダー

マスク言語モデリング(MLM)と呼ばれる事前学習手法、例えばBERTは、入力を一部のトークンを[MASK]に置き換えることで破損させ、その後、モデルが元のトークンを再構成するように学習させる。こうした手法は、下流の自然言語処理(NLP)タスクへの転移学習において良好な結果をもたらすが、その効果を発揮するためには大規模な計算リソースを必要とする。これに対して、本研究ではよりサンプル効率の高い事前学習タスクである「置換トークン検出(replaced token detection)」を提案する。MLMとは異なり、入力をマスクするのではなく、小さな生成ネットワークから抽出した妥当な代替トークンで一部のトークンを置換することで破損させる。その後、破損した入力における各トークンが生成ネットワークからのサンプルによって置換されたかどうかを判別する識別モデルを学習する。すなわち、元のトークンの正体を予測するのではなく、各トークンが置換されたか否かを判断させる。広範な実験により、この新しい事前学習タスクは、MLMよりも効率的であることが示された。その理由は、タスクがマスクされた少数のトークンに限定されるのではなく、すべての入力トークンに対して定義されるためである。その結果、本手法によって学習される文脈表現は、同じモデルサイズ、データ量、計算リソースを用いた場合、BERTが学習する表現を著しく上回る。特に小規模なモデルにおいてその恩恵が顕著であり、1台のGPUで4日間学習したモデルが、30倍以上の計算リソースを用いて学習されたGPTよりもGLUE自然言語理解ベンチマークで優れた性能を発揮する。また、スケーリングを考慮した場合にも本手法は高い効果を発揮し、RoBERTaやXLNetと同等の性能を達成しつつ、それらの計算リソースの4分の1未満で学習可能である。さらに、同じ計算量を用いた場合、本手法はこれらを上回る性能を示す。