2 个月前
FinanceBench:金融问答的新基准
Pranab Islam; Anand Kannappan; Douwe Kiela; Rebecca Qian; Nino Scherrer; Bertie Vidgen

摘要
FinanceBench 是一种开创性的测试套件,用于评估大语言模型(LLM)在开放书本金融问答(QA)中的性能。该套件包含 10,231 个关于上市公司的问题及其对应的答案和证据字符串。FinanceBench 中的问题具有生态有效性,涵盖了多种场景,并且设计得明确而直接,旨在作为最低性能标准。我们对 16 种最先进的模型配置(包括 GPT-4-Turbo、Llama2 和 Claude2,以及向量存储和长上下文提示)进行了测试,选取了 FinanceBench 中的 150 个案例样本,并对其回答进行了人工审查(共 2,400 条)。这些案例以开源形式提供。研究结果表明,现有的大语言模型在金融问答方面存在明显局限性。特别是,当使用检索系统时,GPT-4-Turbo 错误回答或拒绝回答了 81% 的问题。虽然使用较长上下文窗口输入相关证据等增强技术可以提高性能,但在企业环境中由于延迟增加而不切实际,并且无法支持更大的金融文档。我们发现所有被测试的模型都表现出了一些弱点,如产生幻觉(hallucinations),这限制了它们在企业中的适用性。