微软开源 BitNet:1-bit LLM 官方推理框架
微软开源了 bitnet.cpp,这是专为 1 比特大语言模型设计的官方推理框架。该框架支持在 CPU 和 GPU 上对 BitNet b1.58 等模型进行快速且无损的推理,未来还将扩展至 NPU 支持。作为首批发布版本,bitnet.cpp 在 ARM 架构上实现了 1.37 至 5.07 倍的加速,在 x86 架构上则达到 2.37 至 6.17 倍,同时分别降低了 55% 至 82% 的能耗,显著提升了能效。其突破在于能在单台 CPU 上运行 1000 亿参数的 BitNet b1.58 模型,生成速度可达每秒 5 到 7 个 token,媲美人类阅读速度,为本地运行超大规模模型提供了可能。 近期优化引入了并行内核实现和可配置的量化支持,进一步在不同硬件平台上带来了 1.15 至 2.1 倍的性能提升。目前该工具已支持 Hugging Face 上的多款现有 1 比特模型,包括 BitNet、Llama3 及 Falcon 系列的不同参数量版本。项目基于开源的 llama.cpp 构建,并采用了 T-MAC 开创的查找表方法。微软表示,此次发布旨在激发业界在大规模场景下开发更小比特、更大规模模型的热情。开发者可通过源码克隆、安装依赖并编译项目来快速部署,官方也提供了详细的性能基准测试脚本和常见问题解答,帮助解决构建过程中的环境配置问题。这一举措标志着 1 比特 AI 基础设施的重要进展,有望降低大模型落地的门槛。
