11日前

BERTの学習方法：学術予算での実現策

Peter Izsak, Moshe Berchansky, Omer Levy

要約

自然言語処理（NLP）分野では、BERTのような大規模言語モデルが広く利用されている一方で、その事前学習は資金力に恵まれた一部の産業研究ラボしか担えない高コストな作業とされている。では、より限られた予算でこのようなモデルをどのように学習すればよいだろうか？本研究では、単一の低性能なディープラーニングサーバーを用いて、24時間以内にマスクされた言語モデルを事前学習するための実用的な手法を提示する。ソフトウェアの最適化、アーキテクチャ設計の工夫、ハイパーパラメータの調整を組み合わせることで、従来の事前学習コストの僅か数パーセントで、GLUEタスクにおいてBERT-baseと競合可能な性能を達成することが可能であることを実証した。