HyperAI

昨日在Google I/O大会上，谷歌宣布了一项名为Gemini Diffusion的新技术。这是谷歌首个采用扩散模型（类似于图像生成模型如Imagen 和 Stable Diffusion）的大型语言模型（LLM），取代了传统的变压器架构。传统的自回归语言模型通过逐词或逐令牌的方式生成文本。这种方法不仅速度较慢，还可能影响输出的质量和连贯性。相比之下，扩散模型不直接预测文本，而是通过逐步减少噪声来生成输出。这意味着它们可以在生成过程中快速迭代并及时纠正错误，从而在编辑任务中表现更加出色，特别在处理数学和代码问题时。据笔者体验，Gemini Diffusion的速度令人印象深刻。在一个“构建模拟聊天应用”的测试中，该模型以每秒857个令牌的速度响应，最终在一个位数以内的秒内创建了一个交互式的HTML+JavaScript页面，嵌入在聊天工具中，类似于Claude Artifacts的展示方式。从性能上看，Gemini Diffusion与Cerebras的Coder工具相仿，后者以约2,000令牌/秒的速度运行Llama3.1-70B模型。谷歌官方宣称，Gemini Diffusion的性能相当于他们的Gemini 2.0 Flash-Lite模型，但速度提高了5倍。Gemini 2.0 Flash-Lite是谷歌目前成本最低的语言模型之一，这表明Gemini Diffusion具有良好的性价比。值得一提的是，在此之前，唯一能够见到的商用级扩散模型是今年2月推出的Inception Mercury。不过，有业内人士指出，扩散模型并不是完全取代变压器架构，而是在自回归方法上做出了改进。扩散模型仍然使用变压器，只是没有因果掩码，使得整个输入可以一次性处理，输出生成方式也有所不同。这进一步证实了Gemini Diffusion可能也在其底层架构中采用了变压器。 Gemini Diffusion不仅显著提升了生成速度，还在编辑准确性方面表现出色，特别是在处理复杂的数学和编程任务时，这些特点使其成为开发者的有力工具。对于需要高效生成高质量代码和内容的企业来说，这一技术无疑是一个重要的进步。业内人士对 Gemini Diffusion 的评价普遍积极，认为它在保留了传统语言模型优势的同时，大幅提升了生成速度和灵活性。这为自然语言处理领域开辟了新的可能性，特别是对于实时编辑和交互式应用。谷歌一直是人工智能领域的领先者，此次推出的新模型将进一步巩固其在这一领域的地位。

相关链接

相关链接

相关链接

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

Command Palette

谷歌推出 Gemini Diffusion：快速生成文本的新模式

相关链接

Command Palette

谷歌推出 Gemini Diffusion：快速生成文本的新模式

相关链接

Command Palette

谷歌推出 Gemini Diffusion：快速生成文本的新模式

相关链接

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化