Command Palette

Search for a command to run...

1 个月前

StockBench:LLM Agent 能否在现实市场中盈利地交易股票?

Yanxu Chen Zijun Yao Yantao Liu Jin Ye Jianing Yu Lei Hou Juanzi Li

StockBench:LLM Agent 能否在现实市场中盈利地交易股票?

摘要

大型语言模型(LLMs)近年来展现出作为自主智能体的强大能力,在推理、工具使用和序列决策方面具有广阔前景。尽管以往的基准测试已涵盖软件工程、科学发现等领域的LLM智能体评估,但金融领域仍鲜有深入探索,尽管其与经济价值密切相关,且涉及高风险决策。现有金融基准测试主要通过问答形式评估静态知识,难以捕捉交易过程中动态迭代的本质特征。为填补这一空白,我们提出StockBench——一个无污染的基准测试平台,旨在评估LLM智能体在真实、长达数月的股票交易环境中的表现。智能体每日接收市场信号(包括价格、基本面数据及新闻信息),并需做出连续的买入、卖出或持有决策。性能评估采用累计收益率、最大回撤和索提诺比率等金融指标。我们对当前最先进的专有模型(如GPT-5、Claude-4)和开源权重模型(如Qwen3、Kimi-K2、GLM-4.5)的评估结果显示,尽管多数LLM智能体难以超越简单的“买入并持有”基准策略,但仍有若干模型展现出实现更高收益并更有效管理风险的潜力。这些发现揭示了开发基于LLM的金融智能体所面临的挑战与机遇,表明在静态金融知识任务中表现优异,并不必然意味着具备成功的交易策略能力。我们已将StockBench以开源形式发布,以支持研究可复现性,并推动该领域未来的研究进展。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供