Transformer v5:极简模型定义引领AI生态新变革
Hugging Face 今日发布 Transformers v5.0.0rc-0,标志着该库问世五周年的重要里程碑。自 v4.0.0rc-1 发布以来,Transformers 每日安装量已从2万次飙升至超300万次,累计安装量突破12亿次。模型架构数量从v4时期的40个增长至如今的400多个,社区贡献的模型检查点超过75万,远超v4时期的1000个。 v5的核心目标是“互操作性”,在简化设计、提升训练与推理效率、强化生产部署能力方面实现全面升级。团队重点推进了四大方向:简洁性、训练支持、推理优化、本地化与生产部署。 在简洁性方面,Transformers 采用模块化设计,大幅降低模型新增与维护成本。通过引入 AttentionInterface 等抽象层,将注意力机制实现(如 FlashAttention、SDPA)从主模型文件中分离,使代码更清晰、可复用。同时,统一 tokenization 体系,取消“Fast”与“Slow”分法,以 tokenizers 为默认后端,图像处理器也仅保留高性能版本。Flax 和 TensorFlow 支持将逐步退出,PyTorch 成为唯一主推后端,但将与 JAX 生态保持兼容。 在训练方面,v5强化了大规模预训练能力,支持多种并行范式,适配 torchtitan、megatron、nanotron 等主流框架。同时,与 Unsloth、Axolotl、LlamaFactory、TRL、MaxText 等工具深度协同,为微调与后训练提供统一模型定义基础,支持 Agentic 等新场景。 推理方面,v5引入专用内核、更优默认配置和全新 API,提升批量推理效率。特别强调与 vLLM、SGLang、TensorRT LLM 等高性能推理引擎的无缝集成,确保模型可快速部署至各类引擎,发挥其动态批处理、专用内核等优势。同时支持 GGUF 文件直接加载,实现与 llama.cpp、MLX 的高效互操作。 在生产与本地部署上,Transformers 与 ONNXRuntime、llama.cpp、MLX、executorch 紧密协作,使模型可轻松导出至边缘设备,支持多模态模型(视觉、音频)的本地运行。量化成为 v5 的核心特性,正式作为一等公民支持,全面兼容 8-bit、4-bit 等低精度格式,为 bitsandbytes、TorchAO 等工具提供坚实基础。 v5不仅是一次技术迭代,更是对开放协作精神的践行。它构建了一个从训练、部署到本地运行的完整生态链,让开发者“训练用 Unfot/MaxText,部署用 vLLM/SGLang,本地运行用 llama.cpp/executorch”成为现实。当前首个候选版本已发布,欢迎社区反馈,共同塑造下一代AI模型基础设施。
