HyperAIHyperAI

Command Palette

Search for a command to run...

GLaM:Mixture-of-Expertsを用いた言語モデルの効率的スケーリング

概要

データ量、計算リソース、パラメータ数の増加に伴う言語モデルのスケーリングは、自然言語処理分野における顕著な進展をもたらした。たとえば、スケーリングの恩恵により、GPT-3はコンテキスト学習タスクにおいて優れた結果を達成することができた。しかしながら、こうした大規模な密結合型(dense)モデルを訓練するには膨大な計算リソースが必要となる。本論文では、スパースに活性化されるエキスパート集合(mixture-of-experts)アーキテクチャを採用することで、モデル容量を拡大しつつ、密結合型モデルと比較して著しく低い訓練コストを実現する言語モデルのファミリー、GLaM(Generalist Language Model)を提案し、開発した。最大規模のGLaMは1.2兆パラメータを有し、GPT-3と比べて約7倍の規模である。一方で、GPT-3の訓練に要したエネルギーの約1/3に抑えられ、推論時の計算フロップ数も半分で済む。さらに、29の自然言語処理タスクにおいて、ゼロショットおよびワンショットの全体的な性能がGPT-3を上回っている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
GLaM:Mixture-of-Expertsを用いた言語モデルの効率的スケーリング | 記事 | HyperAI超神経