HyperAI超神经

Hugging Face 今日发布 Transformers v5.0.0rc-0，标志着该库问世五周年的重要里程碑。自 v4.0.0rc-1 发布以来，Transformers 每日安装量已从2万次飙升至超300万次，累计安装量突破12亿次。模型架构数量从v4时期的40个增长至如今的400多个，社区贡献的模型检查点超过75万，远超v4时期的1000个。 v5的核心目标是“互操作性”，在简化设计、提升训练与推理效率、强化生产部署能力方面实现全面升级。团队重点推进了四大方向：简洁性、训练支持、推理优化、本地化与生产部署。在简洁性方面，Transformers 采用模块化设计，大幅降低模型新增与维护成本。通过引入 AttentionInterface 等抽象层，将注意力机制实现（如 FlashAttention、SDPA）从主模型文件中分离，使代码更清晰、可复用。同时，统一 tokenization 体系，取消“Fast”与“Slow”分法，以 tokenizers 为默认后端，图像处理器也仅保留高性能版本。Flax 和 TensorFlow 支持将逐步退出，PyTorch 成为唯一主推后端，但将与 JAX 生态保持兼容。在训练方面，v5强化了大规模预训练能力，支持多种并行范式，适配 torchtitan、megatron、nanotron 等主流框架。同时，与 Unsloth、Axolotl、LlamaFactory、TRL、MaxText 等工具深度协同，为微调与后训练提供统一模型定义基础，支持 Agentic 等新场景。推理方面，v5引入专用内核、更优默认配置和全新 API，提升批量推理效率。特别强调与 vLLM、SGLang、TensorRT LLM 等高性能推理引擎的无缝集成，确保模型可快速部署至各类引擎，发挥其动态批处理、专用内核等优势。同时支持 GGUF 文件直接加载，实现与 llama.cpp、MLX 的高效互操作。在生产与本地部署上，Transformers 与 ONNXRuntime、llama.cpp、MLX、executorch 紧密协作，使模型可轻松导出至边缘设备，支持多模态模型（视觉、音频）的本地运行。量化成为 v5 的核心特性，正式作为一等公民支持，全面兼容 8-bit、4-bit 等低精度格式，为 bitsandbytes、TorchAO 等工具提供坚实基础。 v5不仅是一次技术迭代，更是对开放协作精神的践行。它构建了一个从训练、部署到本地运行的完整生态链，让开发者“训练用 Unfot/MaxText，部署用 vLLM/SGLang，本地运行用 llama.cpp/executorch”成为现实。当前首个候选版本已发布，欢迎社区反馈，共同塑造下一代AI模型基础设施。

相关链接

相关链接

相关链接

在线教程｜27B 大模型压缩到 7.2GB！Ternary-Bonsai 用「三进制魔法」让大模型跑进个人电脑

在线教程｜27B 大模型压缩到 7.2GB！Ternary-Bonsai 用「三进制魔法」让大模型跑进个人电脑

Command Palette

Transformer v5：极简模型定义引领AI生态新变革

相关链接

Command Palette

Transformer v5：极简模型定义引领AI生态新变革

相关链接

Command Palette

Transformer v5：极简模型定义引领AI生态新变革

相关链接

在线教程｜27B 大模型压缩到 7.2GB！Ternary-Bonsai 用「三进制魔法」让大模型跑进个人电脑

在线教程｜27B 大模型压缩到 7.2GB！Ternary-Bonsai 用「三进制魔法」让大模型跑进个人电脑