基于第一性原理的 LLM 全新训练范式 POET
基于第一性原理的大语言模型全新训练范式(Reparameterized Training via Orthogonal Equivalence Transformation,简称 POET)是由德国马普所联合香港中文大学于 2025 年 6 月 9 日提出的一种新颖的重参数化训练算法,它利用正交等价变换对神经元进行优化,相关论文成果为「Reparameterized LLM Training via Orthogonal Equivalence Transformation」。
POET 的工作原理是,通过两个可学习的正交矩阵和一个固定的随机权重矩阵对每个神经元进行重参数化。由于 POET 能够证明保持权重矩阵的谱特性,它可以稳定地优化目标函数,提高泛化能力。研究团队开发了高效的近似方法,使 POET 在训练大规模神经网络时具备灵活性和可扩展性。