HyperAI

15 天前

Google近日正式推出实验性开源模型DiffusionGemma，标志着大语言模型生成范式的重要转变。该模型隶属于Gemma 4家族，采用260亿参数稀疏混合专家（MoE）架构，推理时仅激活38亿参数。与传统的自回归逐词生成不同，DiffusionGemma将图像扩散思想引入文本领域：模型以随机占位符为起点，通过多轮前向传播并行处理，每次直接生成256个Token，最终迭代收敛为完整文本。这一架构彻底改变了本地推理的算力瓶颈。传统模型受限于内存带宽逐字预测，GPU利用率低；DiffusionGemma则将计算负载集中释放，在NVIDIA H100上推理速度可达每秒1000+ Token，RTX 5090上亦能突破700+ Token，整体提速最高达4倍。得益于双向注意力机制，模型在行内编辑、代码填充、数学图结构及实时自我纠错等非线性任务上表现尤为突出。 Google强调，DiffusionGemma明确面向本地部署与低并发作场。并行生成虽大幅提升速度，但整体输出质量仍略低于标准Gemma 4，不适用于高QPS云端服务。模型以Apache 2.0协议开源，量化后仅需18GB显存即可运行，已全面适配vLLM、MLX、Hugging Face Transformers等主流框架，并针对NVIDIA Blackwell架构及NVFP4精度深度优化。开发者现已可前往Hugging Face获取权重开展实验。

此资讯由 AI 智能聚合生成，旨在高效传递行业动态，不代表任何观点或建议。

相关链接

相关链接

相关链接

在线教程丨 UC 伯克利/英伟达等发布 3DGS 开源库 Gsplat，节省 4 倍显存，训练时间缩短 10%

在线教程丨 UC 伯克利/英伟达等发布 3DGS 开源库 Gsplat，节省 4 倍显存，训练时间缩短 10%

Command Palette

谷歌DeepMind发布DiffusionGemma：本地AI提速4倍

相关链接

Command Palette

谷歌DeepMind发布DiffusionGemma：本地AI提速4倍

相关链接

Command Palette

谷歌DeepMind发布DiffusionGemma：本地AI提速4倍

相关链接

在线教程丨 UC 伯克利/英伟达等发布 3DGS 开源库 Gsplat，节省 4 倍显存，训练时间缩短 10%

在线教程丨 UC 伯克利/英伟达等发布 3DGS 开源库 Gsplat，节省 4 倍显存，训练时间缩短 10%