2ヶ月前

ALBERT: 自己監督学習による言語表現の軽量版BERT

Zhenzhong Lan; Mingda Chen; Sebastian Goodman; Kevin Gimpel; Piyush Sharma; Radu Soricut

要約

自然言語表現の事前学習において、モデルのサイズを増やすことで下流タスクでの性能向上がしばしば見られます。しかし、ある時点でGPU/TPUのメモリ制限や学習時間の延長により、さらなるモデルの拡大が難しくなります。これらの問題に対処するため、我々はメモリ消費量を削減し、BERTの学習速度を向上させる2つのパラメータ削減技術を提案します。包括的な実証的証拠から、我々が提案した手法が元のBERTよりも大幅にスケーラビリティが向上することを示しています。また、文間の一貫性をモデル化する自己監督損失関数を使用し、複数文入力を持つ下流タスクで一貫して性能向上に寄与することを示しています。その結果、我々の最良のモデルはBERT-largeよりも少ないパラメータでGLUE、RACE、およびSQuADベンチマークで新たな最先端の結果を達成しました。コードと事前学習済みモデルはhttps://github.com/google-research/ALBERT で公開されています。