HyperAIHyperAI

Command Palette

Search for a command to run...

BloombergGPT:用于金融的大型语言模型

Shijie Wu Ozan Irsoy Steven Lu Vadim Dabrovolski Mark Dredze Sebastian Gehrmann Prabhanjan Kambadur David Rosenberg Gideon Mann

摘要

自然语言处理(NLP)在金融科技领域的应用广泛且复杂,涵盖了从情感分析、命名实体识别到问答系统等多个方面。大型语言模型(LLMs)已在多种任务中展现出有效性;然而,目前尚未有文献报道专门针对金融领域的大型语言模型。在本研究中,我们介绍了BloombergGPT,这是一个拥有500亿参数的语言模型,训练数据涵盖广泛的金融信息。我们基于彭博社丰富的数据资源构建了一个包含3630亿个标记的数据集,这可能是迄今为止最大的特定领域数据集,并辅以来自通用数据集的3450亿个标记。我们在标准的大型语言模型基准测试、公开的金融基准测试以及一系列内部基准测试上对BloombergGPT进行了验证,这些内部基准测试最能反映我们的预期用途。混合数据集的训练使得该模型在金融任务上的表现显著优于现有模型,同时在通用大型语言模型基准测试上的性能也未受影响。此外,我们详细解释了建模选择、训练过程及评估方法。我们发布了《训练编年史》(附录C),记录了我们在训练BloombergGPT过程中的经验。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供