2ヶ月前
GPT-NeoX-20B: オープンソースの自己回帰言語モデル
Sid Black; Stella Biderman; Eric Hallahan; Quentin Anthony; Leo Gao; Laurence Golding; Horace He; Connor Leahy; Kyle McDonell; Jason Phang; Michael Pieler; USVSN Sai Prashanth; Shivanshu Purohit; Laria Reynolds; Jonathan Tow; Ben Wang; Samuel Weinbach

要約
GPT-NeoX-20Bの導入について紹介します。これは、200億パラメータを持つ自己回帰言語モデルで、Pileデータセット上で訓練されています。当該モデルの重みは、許諾ライセンスを通じて自由に公開されます。当社が知る限り、提出時においてGPT-NeoX-20Bは公開されている重みを持つ最大の密結合自己回帰モデルです。本研究では、モデルのアーキテクチャと訓練方法を説明し、言語理解、数学、知識ベースのタスクにおける性能評価を行います。その結果、GPT-NeoX-20Bは特に強力な少ショット推論能力を持ち、5ショット評価では同規模のGPT-3やFairSeqモデルよりも大幅に性能が向上することがわかりました。また、訓練および評価コード、モデルの重みをオープンソース化し、https://github.com/EleutherAI/gpt-neox で提供しています。