4 个月前

摘要

大型语言模型（LLMs）近年来展现出作为自主智能体的强大能力，在推理、工具使用和序列决策方面具有广阔前景。尽管以往的基准测试已涵盖软件工程、科学发现等领域的LLM智能体评估，但金融领域仍鲜有深入探索，尽管其与经济价值密切相关，且涉及高风险决策。现有金融基准测试主要通过问答形式评估静态知识，难以捕捉交易过程中动态迭代的本质特征。为填补这一空白，我们提出StockBench——一个无污染的基准测试平台，旨在评估LLM智能体在真实、长达数月的股票交易环境中的表现。智能体每日接收市场信号（包括价格、基本面数据及新闻信息），并需做出连续的买入、卖出或持有决策。性能评估采用累计收益率、最大回撤和索提诺比率等金融指标。我们对当前最先进的专有模型（如GPT-5、Claude-4）和开源权重模型（如Qwen3、Kimi-K2、GLM-4.5）的评估结果显示，尽管多数LLM智能体难以超越简单的“买入并持有”基准策略，但仍有若干模型展现出实现更高收益并更有效管理风险的潜力。这些发现揭示了开发基于LLM的金融智能体所面临的挑战与机遇，表明在静态金融知识任务中表现优异，并不必然意味着具备成功的交易策略能力。我们已将StockBench以开源形式发布，以支持研究可复现性，并推动该领域未来的研究进展。

源 PDF