Command Palette
Search for a command to run...
Yanxu Chen Zijun Yao Yantao Liu Jin Ye Jianing Yu Lei Hou Juanzi Li

摘要
大型语言模型(LLMs)近年来展现出作为自主智能体的强大能力,在推理、工具使用和序列决策方面具有广阔前景。尽管以往的基准测试已涵盖软件工程、科学发现等领域的LLM智能体评估,但金融领域仍鲜有深入探索,尽管其与经济价值密切相关,且涉及高风险决策。现有金融基准测试主要通过问答形式评估静态知识,难以捕捉交易过程中动态迭代的本质特征。为填补这一空白,我们提出StockBench——一个无污染的基准测试平台,旨在评估LLM智能体在真实、长达数月的股票交易环境中的表现。智能体每日接收市场信号(包括价格、基本面数据及新闻信息),并需做出连续的买入、卖出或持有决策。性能评估采用累计收益率、最大回撤和索提诺比率等金融指标。我们对当前最先进的专有模型(如GPT-5、Claude-4)和开源权重模型(如Qwen3、Kimi-K2、GLM-4.5)的评估结果显示,尽管多数LLM智能体难以超越简单的“买入并持有”基准策略,但仍有若干模型展现出实现更高收益并更有效管理风险的潜力。这些发现揭示了开发基于LLM的金融智能体所面临的挑战与机遇,表明在静态金融知识任务中表现优异,并不必然意味着具备成功的交易策略能力。我们已将StockBench以开源形式发布,以支持研究可复现性,并推动该领域未来的研究进展。