9日前

GLaM:Mixture-of-Expertsを用いた言語モデルの効率的スケーリング

Nan Du, Yanping Huang, Andrew M. Dai, Simon Tong, Dmitry Lepikhin, Yuanzhong Xu, Maxim Krikun, Yanqi Zhou, Adams Wei Yu, Orhan Firat, Barret Zoph, Liam Fedus, Maarten Bosma, Zongwei Zhou, Tao Wang, Yu Emma Wang, Kellie Webster, Marie Pellat, Kevin Robinson, Kathleen Meier-Hellstern, Toju Duke, Lucas Dixon, Kun Zhang, Quoc V Le, Yonghui Wu, Zhifeng Chen, Claire Cui
GLaM:Mixture-of-Expertsを用いた言語モデルの効率的スケーリング
要約

データ量、計算リソース、パラメータ数の増加に伴う言語モデルのスケーリングは、自然言語処理分野における顕著な進展をもたらした。たとえば、スケーリングの恩恵により、GPT-3はコンテキスト学習タスクにおいて優れた結果を達成することができた。しかしながら、こうした大規模な密結合型(dense)モデルを訓練するには膨大な計算リソースが必要となる。本論文では、スパースに活性化されるエキスパート集合(mixture-of-experts)アーキテクチャを採用することで、モデル容量を拡大しつつ、密結合型モデルと比較して著しく低い訓練コストを実現する言語モデルのファミリー、GLaM(Generalist Language Model)を提案し、開発した。最大規模のGLaMは1.2兆パラメータを有し、GPT-3と比べて約7倍の規模である。一方で、GPT-3の訓練に要したエネルギーの約1/3に抑えられ、推論時の計算フロップ数も半分で済む。さらに、29の自然言語処理タスクにおいて、ゼロショットおよびワンショットの全体的な性能がGPT-3を上回っている。