HyperAI超神经
2 days ago

SmallThinker:一个为本地部署原生训练的高效大型语言模型家族

Yixin Song, Zhenliang Xue, Dongliang Wei, Feiyang Chen, Jianxiang Gao, Junchen Liu, Hangyu Liang, Guangshuo Qin, Chengrong Tian, Bo Wen, Longyu Zhao, Xinrui Zheng, Zeyu Mi, Haibo Chen
SmallThinker:一个为本地部署原生训练的高效大型语言模型家族
摘要

尽管前沿的大语言模型(LLMs)持续突破能力边界,但其部署仍局限于基于GPU的云基础设施。我们通过SmallThinker这一系列大语言模型,挑战这一传统范式。SmallThinker是原生设计的,而非为云环境中的模型进行适配,以应对本地设备的特殊限制:计算能力较弱、内存有限以及存储速度缓慢。与以往主要通过压缩为云环境设计的模型的方法不同,我们从零开始构建SmallThinker,使其能够在这些限制条件下高效运行。我们的创新之处在于一种“部署感知”的架构,将限制转化为设计原则。首先,我们引入一种两级稀疏结构,结合细粒度的专家混合(Mixture-of-Experts, MoE)与稀疏前馈网络,显著降低计算需求,同时不牺牲模型容量。其次,为克服存储速度慢带来的I/O瓶颈,我们设计了一种预注意力路由机制,使得协同设计的推理引擎能够在计算注意力的同时,从存储中预取专家参数,从而有效隐藏存储延迟,避免其对本地推理性能造成严重影响。第三,为提升内存效率,我们采用NoPE-RoPE混合稀疏注意力机制,大幅减少键值缓存(KV cache)的存储需求。我们发布了SmallThinker-4B-A0.6B和SmallThinker-21B-A3B两个版本,它们在性能上达到了当前最先进的水平,甚至超越了更大的大语言模型。值得注意的是,我们的协同设计系统在很大程度上消除了对昂贵GPU硬件的依赖:在使用Q4_0量化技术的情况下,这两个模型在普通消费级CPU上分别实现了每秒超过20个token的推理速度,且仅分别占用1GB和8GB的内存。SmallThinker已公开发布,可在hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct 和 hf.co/PowerInfer/SmallThinker-21BA3B-Instruct 获取。