Command Palette
Search for a command to run...

摘要
我们提出了一种基于低秩学习的进化引导通用优化方法(Evolution Guided General Optimization via Low-rank Learning, EGGROLL),这是一种进化策略(Evolution Strategies, ES)算法,旨在将无需反向传播的优化方法扩展至大规模种群规模,以适配参数量达数十亿的现代大型神经网络架构。进化策略是一类强大的黑箱优化方法,能够有效处理非可微或含噪声的目标函数,并通过并行化实现优异的可扩展性。然而,传统的朴素ES在大规模场景下因生成矩阵扰动所需的计算与内存开销,以及计算个体前向传播所必需的批量矩阵乘法,而变得极为昂贵。EGGROLL通过生成具有低秩结构的随机矩阵,构造低秩扰动矩阵,替代原有的全秩扰动矩阵,从而克服了上述瓶颈。由于整体更新是基于种群中多个工作节点的平均结果,该方法仍能实现高秩更新,同时大幅降低内存与计算成本:每层的辅助存储空间从 O(N2) 降低至 O(kN),前向传播的计算开销从 O(N2) 降低至 O(kN)(其中 N 为参数规模,k≪N 为低秩秩数)。理论分析表明,我们的低秩更新以 O(1/t) 的速率快速收敛至全秩更新。实验结果表明:(1)在从零开始的强化学习(tabula-rasa RL)设置中,EGGROLL在显著提升速度的同时,未损害ES的性能;(2)在提升大语言模型(LLM)推理能力方面,其效果可与GRPO方法相媲美;(3)EGGROLL能够实现仅使用整数数据类型运行的非线性循环语言模型的稳定预训练。