Command Palette
Search for a command to run...
AI-Trader:在实时金融市场的自主Agent基准测试
AI-Trader:在实时金融市场的自主Agent基准测试
Tianyu Fan Yuhao Yang Yangqin Jiang Yifei Zhang Yuxuan Chen Chao Huang
Abstract
大型语言模型(LLMs)在作为自主智能体方面展现出巨大潜力,通过先进的推理能力与工具协同,已接近人类专家水平。然而,在完全动态且实时的环境中进行决策仍面临巨大挑战,亟需实现实时信息融合与自适应响应。尽管现有研究已在结构化任务中探索了实时评估机制,但在真实世界应用,尤其是金融领域,仍缺乏系统性的基准测试体系。金融领域对实时战略响应能力有着严格要求,这一关键空白亟待填补。为此,我们提出 AI-Trader——首个完全自动化、实时运行且数据无污染的大型语言模型智能体金融决策评估基准。AI-Trader 覆盖三大主要金融市场:美国股票、A股及加密货币,支持多种交易粒度,以真实模拟动态金融环境。本基准引入了一种革命性的全自主最小信息范式:智能体仅接收必要上下文信息,必须独立完成实时市场信息的检索、验证与整合,全程无需人工干预。我们在三个市场及多种交易频率下,对六种主流大型语言模型进行了评估。分析结果揭示出令人瞩目的发现:通用智能并不自动转化为有效的交易能力,大多数智能体表现不佳,收益水平低下,风险控制能力薄弱。我们进一步证明,风险控制能力是决定智能体跨市场鲁棒性的关键因素;在高度流动性的市场中,AI交易策略比在政策驱动型环境中更容易获得超额收益。这些发现揭示了当前自主智能体存在的关键局限性,并为未来技术改进提供了明确方向。
一句话摘要
香港大学的研究人员提出了 AI-Trader,这是一个完全自动化的实时基准,用于评估大型语言模型(LLM)代理在美股、A股和加密货币三大市场中的金融决策能力,引入了一种最小信息范式,强制代理自主进行实时数据合成;其评估结果表明,通用智能并不保证交易成功,风险控制成为跨市场鲁棒性的关键,尤其在流动性市场中表现突出,凸显了在动态金融环境中改进代理设计的迫切需求。
主要贡献
- 我们提出了 AI-Trader,这是首个完全自动化、实时且数据无污染的基准,用于评估大型语言模型(LLM)代理在三大主要市场——美股、A股和加密货币——中的真实金融决策能力,支持多种交易粒度以模拟动态、实时的市场环境。
- 该基准强制执行最小信息范式,代理仅接收必要上下文,必须通过自主工具调用独立搜索、验证并合成实时市场数据,杜绝人为干预,从而严格评估实时推理与适应能力。
- 对六种主流 LLM 的评估显示,通用智能并不等同于交易有效性,大多数代理表现不佳,收益低下且风险管理薄弱,而风险控制成为跨市场鲁棒性的关键决定因素,高流动性市场中实现超额收益更具可行性。
引言
金融市场是一个高风险、实时性的环境,自主代理必须整合实时信息、在不确定性中推理,并做出时间敏感的决策——这些挑战是静态基准无法捕捉的。以往的评估框架往往依赖固定数据、预设工作流或人机协同干预,导致实验室表现与真实世界能力之间存在脱节。这些局限性阻碍了对真正自主决策能力的有意义评估,尤其是在交易等动态领域。
本文作者提出了 AI-Trader,这是首个完全自动化、实时且数据无污染的基准,用于评估大型语言模型(LLM)代理在美股、A股和加密货币中的表现。代理仅以最少的上下文信息运行——当前持仓、实时价格以及工具访问权限——必须独立搜索、验证并合成实时市场数据,全程无需任何人为指导。这种最小信息范式强制要求代理展示长期推理、信息检索和自适应策略执行的严格能力。
对六种主流 LLM 的评估表明,通用智能并不意味着交易能力:大多数代理收益表现差,风险管理薄弱,其表现高度依赖市场流动性与结构。该研究强调,风险控制是跨市场鲁棒性的核心,同时凸显了在 LLM 代理中提升自主规划与适应能力的必要性。开源框架使得在真实金融环境中对代理能力进行可复现、高保真的评估成为可能。
数据集
- 数据集涵盖三个截然不同的金融市场:美国股票市场、中国 A 股市场和加密货币市场,支持评估代理在不同监管环境、投资者行为和市场动态下的泛化能力。
- 支持小时级和日级两种交易频率,以捕捉多样化的市场行为,并测试代理在不同时间尺度下的响应能力。
- 对于美国股票市场,数据集包含纳斯达克-100 指数的全部 100 只成分股,代表科技、半导体、生物技术、互联网服务和可选消费等领域的大型非金融企业。主要公司包括苹果、微软、英伟达、亚马逊、谷歌母公司 Alphabet、特斯拉和 Meta。
- 美股投资组合包含一项无收益现金资产,使代理能够练习无风险资本配置,并展示完整的组合管理能力。
- A 股市场子集包含上证 50 指数的 50 只股票,选自上海证券交易所。这些是金融、消费品、工业、IT、能源和医疗健康等领域的龙头企业,包括平安保险、贵州茅台和招商银行。
- 两个市场环境均设计为反映现实条件:美国市场强调对宏观经济因素和技术创新的敏感性,而 A 股市场则突出宏观驱动的波动性、行业轮动和非平稳行为。
- 作者在训练与评估框架中使用数据,代理在混合市场子集上进行训练,且各子集比例动态调整,以模拟跨市场适应能力。
- 数据经过处理,确保各市场间时间对齐,不使用任何外部数据增强。
- 未进行裁剪;每只资产均使用完整的历史价格与成交量数据。
- 元数据包括资产标识符、行业分类、市值层级和指数归属,以支持结构化分析与模型解释。
方法
作者采用模块化架构构建 AI-Trader,旨在统一且可扩展的框架内支持自主、自适应的交易代理。系统以闭环流程运行,代理持续观察市场状况,推理潜在行动,并执行交易,同时通过标准化工具集与实时环境交互。该架构围绕三个核心组件构建:代理的观测与动作空间、可用工具集,以及模拟真实交易约束的实时环境。

如图所示,代理的观测空间包含关键市场数据,如当前资产价格 p 和代理的组合持仓 s,构成初始观测 o0。该基础信息通过工具调用动态扩展,提供如详细股票指标 πi 和市场新闻 i 等附加数据,从而在每个时间步生成全面的观测 ot。代理的推理过程遵循 ReAct 范式,自主生成自然语言推理轨迹,阐明其决策逻辑。这些轨迹被记录下来,以确保透明性与可复现性,使研究人员能够分析代理在复杂金融情境中的行为。
动作空间被限制为每只资产三个离散动作:买入、卖出或持有。代理的策略函数 at=f(ot,rt) 将当前观测 ot 和推理 rt 映射为可执行动作,确保决策既自主又符合现实约束(如流动性与监管规则)。若某动作违反这些约束,系统将触发自我纠正机制,要求代理重新评估并生成新的可行决策。
工具集包括价格查询、网络搜索、股票新闻获取、交易执行和计算等工具,设计为模块化且可扩展。每个工具基于模型上下文协议(MCP)构建,支持在不同资产类别和交易频率间无缝集成与适应。例如,交易工具强制执行市场特定规则(如最小交易单位),并实时更新持仓与现金余额,确保交易执行的准确性和可审计性。代理与实时环境之间的交互为双向:代理在每次动作后接收环境更新的观测,环境也根据代理决策进行更新,从而维持闭环系统的完整性。
实验
- 在美股、A股和加密货币市场中,采用日频(A股、加密货币)和小时频(美股)策略评估 AI 交易代理,评估指标包括累计收益、Sortino 比率、波动率和最大回撤。
- MiniMax-M2 在美股市场实现 9.56% 的最高累计收益(对比 QQQ 的 1.87%),Sortino 比率为 4.42,最大回撤为 -4.92%,展现出卓越的风险控制与跨市场鲁棒性。
- DeepSeek-v3.1 在加密货币市场表现优于 CD5 指数(-12.18% vs. -14.30%),通过维持高达 41% 的现金仓位并执行“逢低买入”策略,展现出在高波动环境中的适应能力。
- GPT-5、Qwen3-Max 和 Gemini-2.5-Flash 在所有市场中均表现不佳,GPT-5 在美股市场累计收益为 1.56%,在加密货币市场为 -16.41%,凸显通用语言能力与有效交易之间的差距。
- 模型泛化能力有限:DeepSeek-v3.1 在美股市场表现优异(8.39% 累计收益),但在 A 股市场失败(-1.23% 累计收益),而 MiniMax-M2 在所有市场中均保持稳定表现,表明上下文感知的适应能力至关重要。
- 案例研究显示,代理可模拟人类行为——DeepSeek-v3.1 成功通过分散至防御性板块并增加现金仓位,规避了美国市场的一次重大崩盘,但后期因依赖未经验证的新闻而表现不佳,暴露出信息验证方面的弱点。
作者采用多市场、多频率的实验设计,评估 AI 交易代理在美股、A股和加密货币市场中的表现,使用累计收益、Sortino 比率、波动率和最大回撤作为衡量指标。结果表明,MiniMax-M2 在美股市场实现最高累计收益与 Sortino 比率,且是 A 股市场中唯一持续盈利的代理;DeepSeek-v3.1 因有效的现金管理与下行期战略交易,在加密货币市场优于基准。

作者使用表格比较不同 AI 模型在三个市场中的交易行为,显示 MiniMax-M2 的交易频率低于大多数其他模型,在美股和 A 股市场中“无交易”执行比例最低。DeepSeek-v3.1 和 Claude-3.7-Sonnet 在美股和 A 股市场中平均交易次数更高,表明其采取更积极的交易策略,而 Gemini-2.5-Flash 在加密货币市场中平均交易次数最高,反映出其在该高波动环境中的更激进风格。
