Command Palette
Search for a command to run...
Sangmin Bae Bilge Acun Haroun Habeeb Seungyeon Kim Chien-Yu Lin Liang Luo Junjie Wang Carole-Jean Wu

摘要
近期大型语言模型的研究进展表明,将自注意力机制与结构化状态空间模型(如 Mamba)相结合的混合架构,能够在建模质量与计算效率之间实现令人信服的平衡,尤其适用于长上下文任务。尽管这类混合模型展现出良好的性能前景,但关于混合策略的系统性比较,以及对其有效性关键因素的深入分析,尚未在学术社区中得到充分共享。在本工作中,我们基于层间(串行)融合与层内(并行)融合两种方式,对混合架构进行了全面评估。我们从多个角度对这些设计进行了考察:语言建模性能、长上下文处理能力、可扩展性分析,以及训练与推理效率。通过深入探究其计算原语的核心特性,我们识别出每种混合策略中最关键的影响因素,并进一步提出了适用于两类混合模型的最优设计准则。本研究的综合性分析为混合语言模型的开发提供了切实可行的指导与宝贵洞见,有助于优化模型架构配置。