2 days ago

SmallThinker：一个为本地部署原生训练的高效大型语言模型家族

Yixin Song, Zhenliang Xue, Dongliang Wei, Feiyang Chen, Jianxiang Gao, Junchen Liu, Hangyu Liang, Guangshuo Qin, Chengrong Tian, Bo Wen, Longyu Zhao, Xinrui Zheng, Zeyu Mi, Haibo Chen

查看论文详情

摘要

尽管前沿的大语言模型（LLMs）持续突破能力边界，但其部署仍局限于基于GPU的云基础设施。我们通过SmallThinker这一系列大语言模型，挑战这一传统范式。SmallThinker是原生设计的，而非为云环境中的模型进行适配，以应对本地设备的特殊限制：计算能力较弱、内存有限以及存储速度缓慢。与以往主要通过压缩为云环境设计的模型的方法不同，我们从零开始构建SmallThinker，使其能够在这些限制条件下高效运行。我们的创新之处在于一种“部署感知”的架构，将限制转化为设计原则。首先，我们引入一种两级稀疏结构，结合细粒度的专家混合（Mixture-of-Experts, MoE）与稀疏前馈网络，显著降低计算需求，同时不牺牲模型容量。其次，为克服存储速度慢带来的I/O瓶颈，我们设计了一种预注意力路由机制，使得协同设计的推理引擎能够在计算注意力的同时，从存储中预取专家参数，从而有效隐藏存储延迟，避免其对本地推理性能造成严重影响。第三，为提升内存效率，我们采用NoPE-RoPE混合稀疏注意力机制，大幅减少键值缓存（KV cache）的存储需求。我们发布了SmallThinker-4B-A0.6B和SmallThinker-21B-A3B两个版本，它们在性能上达到了当前最先进的水平，甚至超越了更大的大语言模型。值得注意的是，我们的协同设计系统在很大程度上消除了对昂贵GPU硬件的依赖：在使用Q4_0量化技术的情况下，这两个模型在普通消费级CPU上分别实现了每秒超过20个token的推理速度，且仅分别占用1GB和8GB的内存。SmallThinker已公开发布，可在hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct 和 hf.co/PowerInfer/SmallThinker-21BA3B-Instruct 获取。