谷歌DeepMind发布DiffusionGemma:本地AI提速4倍
Google近日正式推出实验性开源模型DiffusionGemma,标志着大语言模型生成范式的重要转变。该模型隶属于Gemma 4家族,采用260亿参数稀疏混合专家(MoE)架构,推理时仅激活38亿参数。与传统的自回归逐词生成不同,DiffusionGemma将图像扩散思想引入文本领域:模型以随机占位符为起点,通过多轮前向传播并行处理,每次直接生成256个Token,最终迭代收敛为完整文本。 这一架构彻底改变了本地推理的算力瓶颈。传统模型受限于内存带宽逐字预测,GPU利用率低;DiffusionGemma则将计算负载集中释放,在NVIDIA H100上推理速度可达每秒1000+ Token,RTX 5090上亦能突破700+ Token,整体提速最高达4倍。得益于双向注意力机制,模型在行内编辑、代码填充、数学图结构及实时自我纠错等非线性任务上表现尤为突出。 Google强调,DiffusionGemma明确面向本地部署与低并发作场。并行生成虽大幅提升速度,但整体输出质量仍略低于标准Gemma 4,不适用于高QPS云端服务。模型以Apache 2.0协议开源,量化后仅需18GB显存即可运行,已全面适配vLLM、MLX、Hugging Face Transformers等主流框架,并针对NVIDIA Blackwell架构及NVFP4精度深度优化。开发者现已可前往Hugging Face获取权重开展实验。
