2 个月前
Falcon 系列开放语言模型
Ebtesam Almazrouei; Hamza Alobeidli; Abdulaziz Alshamsi; Alessandro Cappelli; Ruxandra Cojocaru; Mérouane Debbah; Étienne Goffinet; Daniel Hesslow; Julien Launay; Quentin Malartic; Daniele Mazzotta; Badreddine Noune; Baptiste Pannier; Guilherme Penedo

摘要
我们介绍Falcon系列模型:7B、40B和180B参数的因果解码器模型,这些模型主要基于从网络数据中收集的高质量多样化语料库进行训练。最大的模型Falcon-180B已经接受了超过3.5万亿个文本标记的训练——这是迄今为止公开记录的最大规模预训练运行。Falcon-180B在性能上显著超越了PaLM或Chinchilla等模型,并且在与同期开发的LLaMA 2或Inflection-1等模型相比也有所提升。它以较低的预训练和推理成本接近了PaLM-2-Large的性能,据我们所知,这使它成为世界上性能最佳的三大语言模型之一,与GPT-4和PaLM-2-Large并驾齐驱。我们报告了详细的评估结果,并深入探讨了用于预训练Falcon的方法和自定义工具。特别值得一提的是,我们介绍了我们的自定义分布式训练代码库,该代码库使我们能够在AWS云基础设施上使用多达4,096块A100 GPU(有限互联)高效地进行预训练。我们还发布了包含600亿个标记的网络数据集提取部分,并以宽松许可的方式发布了Falcon-7/40/180B模型,以促进开放科学并加速大型语言模型开放生态系统的开发。