2ヶ月前

GLM-130B: オープンバイリンガル事前学習モデル

Aohan Zeng; Xiao Liu; Zhengxiao Du; Zihan Wang; Hanyu Lai; Ming Ding; Zhuoyi Yang; Yifan Xu; Wendi Zheng; Xiao Xia; Weng Lam Tam; Zixuan Ma; Yufei Xue; Jidong Zhai; Wenguang Chen; Peng Zhang; Yuxiao Dong; Jie Tang
GLM-130B: オープンバイリンガル事前学習モデル
要約

私たちはGLM-130Bを紹介します。これは1300億のパラメータを持つ、英語と中国語のバイリンガル事前学習言語モデルです。このモデルは、GPT-3(ダヴィンチ)に匹敵するかそれ以上の性能を持つ1000億スケールのモデルをオープンソース化し、そのようなスケールのモデルが成功裡に事前学習される方法を明らかにする試みの一環として開発されました。この取り組みを通じて、私たちは予期せぬ多くの技術的および工学的な課題に直面しました。特に損失の急激な上昇や分散についての問題が挙げられます。本論文では、GLM-130Bの訓練プロセスについて説明します。これには設計選択肢、効率と安定性のための訓練戦略、および工学的努力が含まれます。結果として得られたGLM-130Bモデルは、幅広い英語ベンチマークにおいてGPT-3 1750億(ダヴィンチ)を大幅に上回る性能を示しています。一方でOPT-1750億やBLOOM-1760億では同様の性能向上は見られていません。また、関連するベンチマークにおいて最大規模の中国語言語モデルであるERNIE TITAN 3.0 2600億も一貫して大幅に上回っています。最後に、GLM-130Bの一意なスケーリング特性を利用して、後処理なしでINT4量子化を達成し、ほとんど性能低下なく実現しました。これによりGLM-130Bは1000億スケールのモデルとしては初めてであり、さらに重要な点として4×RTX 3090(24GB)または8×RTX 2080 Ti(11GB)GPUといった最も手頃な価格帯のGPU上で効果的に推論を行うことが可能になりました。これらのGPUは1000億スケールのモデルを使用するために必要となるものです。GLM-130Bモデルの重みは公開されており、コード、訓練ログ、関連ツールキットおよび得られた教訓は\url{https://github.com/THUDM/GLM-130B/}でオープンソース化されています。

GLM-130B: オープンバイリンガル事前学習モデル | 最新論文 | HyperAI超神経