HyperAIHyperAI

Command Palette

Search for a command to run...

BitNet b1.58 2B4T 技术报告

摘要

我们推出了 BitNet b1.58 2B4T,这是首个在20亿参数规模下实现原生1比特(1-bit)的开源大型语言模型(LLM)。该模型在包含4万亿token的语料库上进行训练,并在涵盖语言理解、数学推理、代码能力及对话能力等多个基准测试中进行了严格评估。结果表明,BitNet b1.58 2B4T在性能上可与同类规模的主流开源全精度(full-precision)大模型相媲美,同时在计算效率方面展现出显著优势,包括大幅降低内存占用、能耗以及解码延迟。为促进后续研究与实际应用,模型权重已通过 Hugging Face 公开发布,并提供了针对 GPU 与 CPU 架构的开源推理实现代码。

一句话总结

作者提出 BitNet b1.58 2B4T,这是首个开源的 1.58 位大语言模型(20 亿参数),在语言、数学、编程和对话任务上实现了全精度大语言模型级别的性能,同时通过原生 1 位量化大幅降低内存、能耗和延迟,其效率优于以往低比特模型,并通过开源发布支持在 CPU 和 GPU 上部署。

主要贡献

  • BitNet b1.58 2B4T 是首个在 20 亿参数规模下开源的原生 1 位大语言模型,从零开始在 4 万亿个 token 上训练,旨在解决在资源受限环境中部署全精度大语言模型所面临的高计算成本和内存需求问题。

  • 该模型采用一种新颖的 BitLinear 层架构,实现高效的 1.58 位权重表示与位运算,使其在语言理解、数学推理、编程和对话基准测试中,性能可与同规模领先开源全精度大语言模型相媲美。

  • 在 Hugging Face 上开源,提供 GPU 和 CPU 的开源推理代码,支持 GGUF 和 bf16 格式,BitNet b1.58 2B4T 在内存效率、能耗和解码延迟方面表现出显著提升,推动了参数量低于 30 亿的开源大语言模型的帕累托前沿。

引言

作者利用对可访问、高效大语言模型日益增长的需求,解决一个关键瓶颈:在资源受限系统上部署开源权重大语言模型的高计算成本。此前关于 1 位大语言模型的研究受限于后训练量化——这会降低性能,或局限于小规模原生 1 位模型,无法达到全精度模型的能力。为克服这些限制,作者提出 BitNet b1.58 2B4T,这是首个在 20 亿参数规模下从零开始训练的开源原生 1 位大语言模型,基于 4 万亿 token 训练。其核心贡献在于证明,经过规模优化的 1.58 位模型可在语言理解、数学、编程和对话任务上达到与同规模领先全精度大语言模型相当的性能,同时通过高效的位运算显著降低内存、能耗和延迟。该模型附带 GPU 和 CPU 的开源推理代码,支持广泛的研究与部署。

Top Figure

数据集

  • 预训练数据由公开可用的文本和代码数据集混合构成,包括大规模网络爬取数据(如 DCLM,Li 等,2024b)以及 FineWeb-EDU(Penedc 等,2024)中的教育网页,同时补充了合成生成的数学内容以增强推理能力。
  • 在训练第一阶段,主要使用通用网络数据;在第二阶段(冷却阶段,学习率降低)则优先使用高质量的精选数据集。
  • 监督微调(SFT)阶段,作者使用了多样化的指令遵循和对话数据集,包括 WildChat(Zhao 等,2024)、LMSYS-Chat-1M(Zheng 等,2024)、WizardLM Evol-Instruct(Xu 等,2024a)和 SlimOrca(Lian 等,2023)。
  • 为增强推理和复杂指令处理能力,将通过 GLAN(Li 等,2024a)和 MathScale(Tang 等,2024)生成的合成数据集加入 SFT 混合数据中。
  • DPO 偏好训练数据集来自两个公开来源:UltraFeedback(Cui 等,2024)和 MagPie(Xu 等,2024c),结合多样化的真人判断,引导模型生成更符合人类偏好的响应。
  • 数据处理包括过滤与清洗以确保质量,合成数据经过精心构建,以匹配真实输入的风格与复杂度。
  • 未描述显式的裁剪策略,但数据处理方式与两阶段训练计划相匹配,后期阶段更强调数据质量与相关性。
  • 为支持训练阶段分配与混合比例控制,为每个数据集子集构建了元数据,确保各阶段训练的平衡与高效。

方法

作者采用一种改进的 Transformer 架构(源自标准设计,Vaswani 等,2017),实现 BitNet b1.58 2B4T。核心创新在于将传统全精度线性层替换为自定义的 BitLinear 层,构成 BitNet 框架的基础。在这些层中,权重量化在前向传播中应用,通过绝对均值(absmean)量化方案将模型权重映射为三值 {1,0,+1}\{-1, 0, +1\}{1,0,+1},将有效位宽降至 1.58 位,显著减小模型尺寸并支持高效的算术运算。同时,激活值通过每 token 应用的绝对最大值(absmax)策略量化为 8 位整数,以在计算过程中保持数值精度。为增强训练稳定性,引入 sub1n 归一化技术,该技术已知可提升量化训练中的收敛性。

除 BitLinear 层外,模型还集成了多种成熟技术以提升性能与鲁棒性。前馈网络(FFN)子层采用平方 ReLU(ReLU2\text{ReLU}^2ReLU2)作为激活函数,这一选择源于其在 1 位上下文中的良好稀疏性与计算特性。旋转位置编码(RoPE)用于编码位置信息,是现代大语言模型中的标准做法。此外,网络中所有线性层与归一化层的偏置项均被移除,与 LLaMA 等架构保持一致,以减少参数量并简化量化过程。在分词方面,模型使用 LLaMA 3 分词器,该分词器采用字节级 Byte-Pair Encoding(BPE)方案,词汇表大小为 128,256 个 token,确保对文本与代码的广泛覆盖,并与现有生态系统兼容。

训练过程采用两阶段权重衰减调度以管理正则化。第一阶段,权重衰减遵循余弦调度,峰值为 0.1,以防止在高学习率初期训练阶段发生过拟合。第二阶段,权重衰减被禁用(设为零),使模型参数在较低学习率和精选数据下收敛至更精细的最优解。预训练完成后,模型进行监督微调(SFT)以提升其指令遵循能力与对话性能。在 SFT 与推理过程中,使用特定的聊天模板,结构如下:<begin_of_text>System: {system_message}</eot_id>\nUser: {user_message_1}</eot_id>\nAssistant: {assistant_message_1}</eot_id>\nUser: {user_message_2}</eot_id>\nAssistant: {assistant_message_2}</eot_id>...

BitNet b1.58 2B4T 的高效推理需要专用实现,因其独特的 W1.58A8 量化方案未被标准深度学习库原生支持。为此,作者为 GPU 和 CPU 平台开发了专用推理库。对于 GPU 推理,设计了针对 W1.58A8 矩阵乘法的自定义 CUDA 内核。三值权重被压缩为 8 位整数,每“int8”编码四个值,以实现高带宽内存(HBM)中的高效存储。内核将这些压缩值加载至共享内存(SRAM),解压为三值形式,并与 8 位激活值进行矩阵乘法。该“打包-存储-加载-解包-计算”策略最大限度减少了内存带宽使用,同时实现高性能计算。对于 CPU 推理,作者发布了 bitnet.cpp,一个 C++ 库,为标准 CPU 架构提供优化内核。这些内核专为高效处理模型的量化方案而设计,确保在无通用量化框架开销的情况下实现准确且快速的推理。

实验

  • 主要实验:进行了预训练、监督微调(SFT)和直接偏好优化(DPO),以训练 BitNet b1.58 2B4T,验证了原生 1 位架构结合优化训练策略的有效性。
  • 核心结果:在评估基准上,BitNet b1.58 2B4T 在 1 位模型中达到最先进性能,优于更小的原生训练 1 位模型以及更大但量化至 1.58 位的模型。其在推理、数学和世界知识等关键任务上达到或超越了同规模领先全精度模型(如 LLaMA 3.2 1B、Gemma-3 1B、Qwen2.5 1.5B)的水平,同时实现显著更低的内存占用和能耗。在 MT-bench 和 IFEval 基准上,展现出强大的指令遵循与对话能力。与 Qwen2.5 1.5B 的 INT4 后训练量化版本相比,该模型表现出更优的效率,以更低资源消耗维持更高性能。

作者使用 BitNet b1.58 2B4T 证明,1 位模型可在性能上与同规模全精度模型竞争,同时显著降低内存与能耗。结果表明,BitNet b1.58 2B4T 实现了最低的内存占用与能耗,延迟为 29ms,估算能耗为 0.028J,在多个基准上优于所有全精度模型,并为 1 位模型树立了新的最先进水平。

作者将 BitNet b1.58 2B4T 与其他开源权重 1 位模型进行比较,包括原生训练模型和量化至 1.58 位的更大模型。结果表明,BitNet b1.58 2B4T 在多数基准上取得最高得分,显著优于更小的 1 位模型以及经后训练量化的更大模型,确立了其在该类别中的领先地位。

作者将 BitNet b1.58 2B4T 与 Qwen2.5 1.5B 的后训练量化版本进行比较,结果表明 BitNet 在保持更强基准性能的同时,实现了更低的内存占用。结果显示,BitNet b1.58 2B4T 在 MMLU、GSM8K 和 IFEval 上均优于 INT4 量化模型,展现出更优的效率与能力。

作者使用表格比较不同精度格式的算术运算能耗,显示 INT8 在加法与乘法上均显著低于 FP16。结果表明,在 7nm 工艺节点下,INT8 相比 FP16 可将加法能耗降低 95.6%,乘法能耗降低 79.4%。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供