2 个月前
BloombergGPT:用于金融的大型语言模型
Shijie Wu; Ozan Irsoy; Steven Lu; Vadim Dabravolski; Mark Dredze; Sebastian Gehrmann; Prabhanjan Kambadur; David Rosenberg; Gideon Mann

摘要
自然语言处理(NLP)在金融科技领域的应用广泛且复杂,涵盖了从情感分析、命名实体识别到问答系统等多个方面。大型语言模型(LLMs)已在多种任务中展现出有效性;然而,目前尚未有文献报道专门针对金融领域的大型语言模型。在本研究中,我们介绍了BloombergGPT,这是一个拥有500亿参数的语言模型,训练数据涵盖广泛的金融信息。我们基于彭博社丰富的数据资源构建了一个包含3630亿个标记的数据集,这可能是迄今为止最大的特定领域数据集,并辅以来自通用数据集的3450亿个标记。我们在标准的大型语言模型基准测试、公开的金融基准测试以及一系列内部基准测试上对BloombergGPT进行了验证,这些内部基准测试最能反映我们的预期用途。混合数据集的训练使得该模型在金融任务上的表现显著优于现有模型,同时在通用大型语言模型基准测试上的性能也未受影响。此外,我们详细解释了建模选择、训练过程及评估方法。我们发布了《训练编年史》(附录C),记录了我们在训练BloombergGPT过程中的经验。