Command Palette
Search for a command to run...

摘要
在本技术报告中,我们提出了一系列Ring-linear模型,具体包括Ring-mini-linear-2.0和Ring-flash-linear-2.0。其中,Ring-mini-linear-2.0包含160亿参数和9.57亿激活值,而Ring-flash-linear-2.0则包含1040亿参数和61亿激活值。这两款模型均采用混合架构,有效融合了线性注意力(linear attention)与Softmax注意力(softmax attention),在长上下文推理场景中显著降低了I/O开销与计算负担。与320亿参数的密集型模型相比,该系列模型将推理成本降低至1/10;相较于原始Ring系列模型,推理成本也进一步降低超过50%。此外,通过系统性地探索混合架构中不同注意力机制之间的比例配置,我们已确定当前最优的模型结构。同时,借助我们自主开发的高性能FP8算子库Linghe,整体训练效率提升了50%。得益于训练与推理引擎算子之间高度一致的对齐,这些模型在强化学习阶段能够实现长期、稳定且高效的优化,持续在多个具有挑战性的复杂推理基准测试中保持最先进(SOTA)性能。