2ヶ月前

Falcon シリーズのオープン言語モデル

Ebtesam Almazrouei; Hamza Alobeidli; Abdulaziz Alshamsi; Alessandro Cappelli; Ruxandra Cojocaru; Mérouane Debbah; Étienne Goffinet; Daniel Hesslow; Julien Launay; Quentin Malartic; Daniele Mazzotta; Badreddine Noune; Baptiste Pannier; Guilherme Penedo

論文の詳細を見る

要約

ファルコンシリーズを紹介します：7B、40B、180Bパラメータの因果関係型デコーダーのみモデルで、主にウェブデータから構築された多様な高品質コーパスで学習されています。最大のモデルであるファルコン-180Bは、3.5兆以上のテキストトークンで学習されており、公開されている事前学習の最大規模を記録しています。ファルコン-180BはPaLMやChinchillaなどのモデルを大幅に上回り、同時期に開発されたLLaMA 2やInflection-1においても性能が向上しています。また、事前学習と推論コストが低減されつつPaLM-2-Largeに近い性能を達成しており、GPT-4やPaLM-2-Largeとともに世界で最も優れた言語モデルの一つであると考えられます。詳細な評価結果と、ファルコンの事前学習に使用した手法やカスタムツールについて深く掘り下げて報告します。特に、最大4,096台のA100 GPUを使用してAWSクラウドインフラストラクチャ上で効率的に事前学習を行うためのカスタム分散トレーニングコードベースについて報告します。さらに、600Bトークンのウェブデータセット抽出部分とファルコン-7/40/180Bモデルをオープンサイエンスを促進し、大規模言語モデルのオープンエコシステムの開発を加速する目的で許諾条件が緩やかなライセンスのもとに公開します。