Command Palette
Search for a command to run...
GLaM:Mixture-of-Expertsを用いた言語モデルの効率的スケーリング
GLaM:Mixture-of-Expertsを用いた言語モデルの効率的スケーリング
概要
データ量、計算リソース、パラメータ数の増加に伴う言語モデルのスケーリングは、自然言語処理分野における顕著な進展をもたらした。たとえば、スケーリングの恩恵により、GPT-3はコンテキスト学習タスクにおいて優れた結果を達成することができた。しかしながら、こうした大規模な密結合型(dense)モデルを訓練するには膨大な計算リソースが必要となる。本論文では、スパースに活性化されるエキスパート集合(mixture-of-experts)アーキテクチャを採用することで、モデル容量を拡大しつつ、密結合型モデルと比較して著しく低い訓練コストを実現する言語モデルのファミリー、GLaM(Generalist Language Model)を提案し、開発した。最大規模のGLaMは1.2兆パラメータを有し、GPT-3と比べて約7倍の規模である。一方で、GPT-3の訓練に要したエネルギーの約1/3に抑えられ、推論時の計算フロップ数も半分で済む。さらに、29の自然言語処理タスクにおいて、ゼロショットおよびワンショットの全体的な性能がGPT-3を上回っている。