Command Palette
Search for a command to run...
QuantaAlpha:一种面向LLM驱动的Alpha挖掘的进化框架
QuantaAlpha:一种面向LLM驱动的Alpha挖掘的进化框架
摘要
金融市场具有高度噪声性和非平稳性,导致阿尔法挖掘对回测结果中的噪声极为敏感,并容易受到市场制度突变的影响。尽管近期的智能体(agentic)框架在提升阿尔法挖掘自动化水平方面取得进展,但普遍缺乏可控的多轮搜索机制以及对已验证经验的可靠复用能力。为应对上述挑战,我们提出 QuantaAlpha——一种基于进化的阿尔法挖掘框架。该框架将每一次端到端的挖掘过程视为一条轨迹,并通过轨迹层面的变异(mutation)与交叉(crossover)操作持续优化因子。QuantaAlpha 能够定位每条轨迹中的次优步骤并进行针对性修正,同时将具有互补优势的高收益片段重新组合,以复用有效的模式,从而在多轮挖掘迭代中实现结构化探索与持续优化。在因子生成阶段,QuantaAlpha 强制保证假设、因子表达式与可执行代码之间的语义一致性,同时对生成因子的复杂度与冗余度进行约束,有效缓解了种群拥挤问题。在沪深300指数(CSI 300)上的大量实验表明,QuantaAlpha 在性能上持续优于多个强基线模型及先前的智能体系统。当使用 GPT-5.2 作为核心生成模型时,QuantaAlpha 实现了 0.1501 的信息系数(IC),年化收益率(ARR)达 27.75%,最大回撤(MDD)仅为 7.98%。此外,基于 CSI 300 挖掘出的因子在迁移至中证500指数(CSI 500)和标普500指数(S&P 500)时仍表现出优异的泛化能力,分别在四年内实现 160% 和 137% 的累计超额收益,充分验证了 QuantaAlpha 在市场分布变化下的强大鲁棒性。
一句话总结
来自上海财经大学、QuantaAlpha、斯坦福大学、北京大学、中山大学和东南大学的研究人员提出了 QuantaAlpha,这是一种通过轨迹级变异和交叉优化金融 Alpha 因子的进化框架,确保语义一致性并减少冗余,在 CSI 300、CSI 500 和标普 500 指数上实现了强大的样本外表现。
主要贡献
- QuantaAlpha 引入了一种用于 Alpha 挖掘的进化框架,将每次挖掘运行视为一条轨迹,通过变异和交叉进行有针对性的优化,以克服噪声敏感性并在非平稳市场中提升可控性。
- 系统在因子生成过程中强制执行语义一致性和复杂度约束,同时重用高回报轨迹片段以缓解因子拥挤,并支持跨迭代的可靠、可审计的知识迁移。
- 在 CSI 300 上评估,QuantaAlpha 实现了 0.1501 的 IC 值、27.75% 的年化回报率(ARR)和 7.98% 的最大回撤(MDD),并在四年内于 CSI 500 和标普 500 上分别实现了 160% 和 137% 的累计超额回报,展现出强大的分布外鲁棒性。
引言
作者利用大语言模型自动化金融市场中的 Alpha 因子发现,其中噪声和非平稳性使传统方法脆弱且容易过拟合。先前的代理框架虽提升了自动化程度,但由于反馈噪声、验证洞察复用有限以及探索范围狭窄导致因子拥挤,其可控性仍显脆弱。QuantaAlpha 通过将每次挖掘运行视为可进化的轨迹来解决这一问题:应用变异修正次优步骤,应用交叉重组高性能片段,从而实现结构化、可追溯的优化。系统还在生成过程中强制执行语义一致性和复杂度约束,以防止漂移和冗余。在 CSI 300 上评估表明,它优于基线方法,并在 CSI 500 和标普 500 上表现出强大的迁移能力,证明其在市场变化下的鲁棒性。
数据集

- 作者使用 CSI 300 数据集,涵盖中国 300 只大盘 A 股,按时间划分:训练集(2016–2020)、验证集(2021)、测试集(2022–2025)。
- 回测扩展至 CSI 500 和标普 500 指数,使用 Qlib 框架,数据划分详见表 5。
- 因子构建依赖六个基础价格与成交量特征(开盘价、最高价、最低价、收盘价、成交量、VWAP),用于预测次日收益,计算公式为 yt=Pt+2close/Pt+1close−1。
- 预处理包括前向填充缺失值、替换无穷大值、剔除标签缺失样本,并对特征与标签应用横截面秩归一化(CSRrankNorm)。
- 模型评估使用两组指标:因子预测能力(IC、ICIR、Rank IC、Rank ICIR)与策略表现(ARR、IR、MDD、CR)。
- 基线模型包括传统机器学习、深度学习时序模型、经典因子库以及基于 LLM 的代理(如 RD-Agent 和 AlphaAgent)。
方法
作者采用名为 QuantaAlpha 的多智能体、假设驱动框架,系统性构建并进化量化交易中的 Alpha 因子。他们不将 Alpha 挖掘视为静态的单次模型拟合任务,而是将其构建为迭代式智能体研究工作流,生成并优化从初始上下文到最终评估因子的挖掘轨迹——即状态与动作的有序序列。核心架构围绕四个组件构建:多样化规划初始化、带约束门控的因子实现、通过变异与交叉的自我进化,以及最终整合验证输出的因子池。
参考框架图,该图对比了 QuantaAlpha 与传统机器学习及基于代理的基线方法。系统从种子因子池开始,由初始化智能体生成一组多样化的市场假设。这些假设随后通过符号中间表示实例化为可执行因子,确保语义保真度与结构控制。每个因子经过回测并评估其预测性能与正则化惩罚。生成的轨迹随后接受进化操作——变异与交叉——通过修订次优决策或重组父轨迹中的高性能片段,迭代优化搜索空间。

因子实现模块是保持可控性与可解释性的核心。给定假设 h,因子智能体将其映射为结构化语义描述 d,使用标准化算子库 O 形式化预期机制。该描述随后组装为符号表达式 f,解析为抽象语法树(AST)T(f),并编译为可执行代码 c。AST 的叶节点绑定原始特征(如 high、volume),内部节点对应 TS_MIN、SMA 或 RANK 等算子,使计算图透明。为确保保真度,基于 LLM 的验证器检查假设、语义描述与符号表达式之间,以及符号形式与生成代码之间的对齐。若发现不一致,系统将重新生成或修复相关组件。
为促进简洁性与新颖性,作者施加明确的结构约束。复杂度量化为 C(f)=α1⋅SL(f)+α2⋅PC(f)+α3⋅log(1+∣Ff∣),其中 SL(f) 为符号长度,PC(f) 统计自由参数数量,Ff 为所用原始特征集合。冗余性通过 AST 同构性衡量:对候选因子 f 和现有 Alpha 库 Z,最大结构相似度计算为 S(f)=maxϕ∈Zs(f,ϕ),其中 s(f,ϕ) 为最大公共同构子树大小。违反复杂度或冗余阈值的因子将被拒绝并重写。

自我进化阶段驱动迭代改进。变异针对轨迹 τ 中的次优决策节点 k,仅重写局部动作 ak,保留前缀至 sk 并重新生成后续步骤以保持连贯性。这允许在机制层面进行优化,如调整时间尺度或添加市场状态条件。交叉通过组合多个父轨迹中的高性能片段合成新子轨迹,明确继承已验证决策。例如,一个父轨迹可能贡献零售驱动动量的假设模板,另一个贡献机构验证的结构模式;交叉操作将二者合并为统一的、状态感知的双源因子。

在案例研究中,一个名为 Institutional_Momentum_Score_20D 的因子通过交叉操作从两个父轨迹中诞生:一个聚焦脆弱的零售动量,另一个聚焦可持续的机构动量。合成假设引入基于市场波动率的动态加权,在稳定状态下放大机构信号,在动荡状态下放大零售反转信号。最终因子表达式 IMS20D=RANK(ρ20(PΔP,VΔV)×(CC−O)5) 通过价格-成交量相关性与日内收益模式捕捉机构驱动动量,横截面排序确保可比性。

该因子的谱系可追溯:源于父轨迹 1(识别不可持续的零售动量)和父轨迹 2(验证机构结构趋势)。交叉操作明确重组这些已验证片段,生成子因子的 Rank IC(0.0311)优于双亲(0.0216 和 0.0246)。这表明框架不仅提升性能,也实现概念合成,在结构进化中保留核心市场假设并增强预测能力。

实验
- QuantaAlpha 在 CSI 300 上的预测能力与策略表现均优于所有基线,展现出跨市场状态的鲁棒性及在标准风险控制下的现实可行性。
- 进化组件——多样化初始化、变异与交叉——共同增强探索、修复与高性能因子轨迹的复用,其中变异对逃离局部最优至关重要。
- 因子生成过程中的语义一致性、复杂度控制与冗余过滤对稳定、泛化的因子发现至关重要;移除任一组件都会降低性能,尤其在策略层面。
- QuantaAlpha 展现出强大的分布外泛化能力,在无需重新训练的情况下持续在 CSI 500 和标普 500 上保持表现,而基线方法在市场状态转换下失效。
- 在 2023 年市场转向小盘股与主题股期间,QuantaAlpha 通过发现与隔夜缺口、波动率聚集和趋势质量相关的结构因子保持预测能力——与演变的市场微观结构对齐。
- 通过语义变异实现的因子多样性使 QuantaAlpha 能适应状态变化,避免过度集中于过时的市场假设并缓解 Alpha 衰减。
- 迭代进化高效提升因子质量,性能在约 11–12 次迭代后趋于稳定;此后收益递减与冗余会降低风险调整后表现。
- 交叉操作提升预测准确性但可能增加回撤,表明需在风险回报间权衡,应采用状态自适应加权以实现最优平衡。
作者通过消融研究分离规划、变异与交叉在进化因子挖掘框架中的贡献。结果表明,移除变异导致预测能力与策略回报最大下降,移除规划主要降低风险调整后表现,移除交叉导致中等但持续的下降。这证实三者均不可或缺:变异驱动探索,规划稳定搜索,交叉实现成功模式的高效复用。

作者使用因子评估智能体评估预测能力与策略表现,发现 QuantaAlpha 相比 AlphaAgent 保持更高覆盖率及更多具有正向且统计显著 Rank IC 的因子。结果表明,QuantaAlpha 的因子整体预测一致性更强,表现分布右尾更重,表明其在市场变化下生成更稳健、更多样化的信号。这表明系统的进化设计与语义控制有助于维持因子质量与泛化能力,超越特定市场状态。

作者通过结构化评估比较不同语义类别因子的表现,发现 QuantaAlpha 的因子在捕捉隔夜市场动态、趋势质量与流动性信号方面表现优异,而表现不佳因子常依赖僵化或噪声敏感机制。结果表明,强表现因子与持续的微观结构效应(如波动率聚集与拍卖驱动价格发现)对齐,而弱表现因子因过拟合或缺乏自适应调节而在状态转换下退化。该模式证实,稳健因子设计需语义上与市场结构对齐,并在信息渠道间保持多样性,而不仅是统计拟合。

作者使用交叉操作组合因子轨迹,生成的子因子在预测能力与年化超额回报上优于基线。但此收益伴随最大回撤增加,表明在波动市场条件下风险敞口更高。结果表明,尽管组合信号可提升回报,但需额外的状态自适应控制以维持风险调整后表现。

作者使用 QuantaAlpha 通过轨迹式进化框架生成并进化交易因子,在多个大语言模型上实现卓越的预测能力与策略表现。结果表明,QuantaAlpha 一致优于传统机器学习模型及先前基于 LLM 的代理,尤其在现实交易约束下维持高回报与可控回撤。系统的收益源于结构化因子生成、语义一致性控制及增强探索与成功模式复用的进化机制。
