HyperAI超神经

BizFinBench:一个业务驱动的现实世界金融基准用于评估大语言模型(LLMs)

Lu, Guilong ; Guo, Xuntao ; Zhang, Rongjunchen ; Zhu, Wenqiao ; Liu, Ji
发布日期: 5/27/2025
BizFinBench:一个业务驱动的现实世界金融基准用于评估大语言模型(LLMs)
摘要

大型语言模型在一般任务中表现出色,但在逻辑密集、精度关键的领域(如金融、法律和医疗)评估其可靠性仍然具有挑战性。为了解决这一问题,我们推出了BizFinBench,这是首个专门设计用于评估大型语言模型在实际金融应用中的基准测试工具。BizFinBench包含6,781个经过良好注释的中文查询,涵盖五个维度:数值计算、推理、信息提取、预测识别和基于知识的问题回答,并细分为九个具体类别。该基准测试包括客观和主观指标。我们还引入了IteraJudge,这是一种新颖的大型语言模型评估方法,旨在减少大型语言模型作为客观指标评估者时的偏见。我们对25个模型进行了基准测试,涵盖了专有系统和开源系统。广泛的实验表明,没有一个模型能够在所有任务中占据主导地位。我们的评估揭示了不同的能力模式:(1) 在数值计算方面,Claude-3.5-Sonnet(63.18分)和DeepSeek-R1(64.04分)领先,而较小的模型如Qwen2.5-VL-3B(15.92分)则显著落后;(2) 在推理方面,专有模型占据主导地位(ChatGPT-o3: 83.58分,Gemini-2.0-Flash: 81.15分),开源模型最多落后19.49分;(3) 在信息提取方面,性能差异最大,DeepSeek-R1得分为71.46分,而Qwen3-1.7B仅为11.23分;(4) 在预测识别方面,性能差异最小,顶级模型得分在39.16至50.00之间。我们发现,虽然当前的大规模语言模型能够胜任常规金融查询任务,但在需要跨概念推理的复杂场景中表现不佳。BizFinBench为未来的研究提供了一个严格且与业务对齐的基准测试工具。代码和数据集可在https://github.com/HiThink-Research/BizFinBench获取。