谷歌推出 Gemini Diffusion:快速生成文本的新模式
昨日在Google I/O大会上,谷歌宣布了一项名为Gemini Diffusion的新技术。这是谷歌首个采用扩散模型(类似于图像生成模型如Imagen 和 Stable Diffusion)的大型语言模型(LLM),取代了传统的变压器架构。 传统的自回归语言模型通过逐词或逐令牌的方式生成文本。这种方法不仅速度较慢,还可能影响输出的质量和连贯性。相比之下,扩散模型不直接预测文本,而是通过逐步减少噪声来生成输出。这意味着它们可以在生成过程中快速迭代并及时纠正错误,从而在编辑任务中表现更加出色,特别在处理数学和代码问题时。 据笔者体验,Gemini Diffusion的速度令人印象深刻。在一个“构建模拟聊天应用”的测试中,该模型以每秒857个令牌的速度响应,最终在一个位数以内的秒内创建了一个交互式的HTML+JavaScript页面,嵌入在聊天工具中,类似于Claude Artifacts的展示方式。 从性能上看,Gemini Diffusion与Cerebras的Coder工具相仿,后者以约2,000令牌/秒的速度运行Llama3.1-70B模型。谷歌官方宣称,Gemini Diffusion的性能相当于他们的Gemini 2.0 Flash-Lite模型,但速度提高了5倍。Gemini 2.0 Flash-Lite是谷歌目前成本最低的语言模型之一,这表明Gemini Diffusion具有良好的性价比。 值得一提的是,在此之前,唯一能够见到的商用级扩散模型是今年2月推出的Inception Mercury。不过,有业内人士指出,扩散模型并不是完全取代变压器架构,而是在自回归方法上做出了改进。扩散模型仍然使用变压器,只是没有因果掩码,使得整个输入可以一次性处理,输出生成方式也有所不同。这进一步证实了Gemini Diffusion可能也在其底层架构中采用了变压器。 Gemini Diffusion不仅显著提升了生成速度,还在编辑准确性方面表现出色,特别是在处理复杂的数学和编程任务时,这些特点使其成为开发者的有力工具。对于需要高效生成高质量代码和内容的企业来说,这一技术无疑是一个重要的进步。 业内人士对 Gemini Diffusion 的评价普遍积极,认为它在保留了传统语言模型优势的同时,大幅提升了生成速度和灵活性。这为自然语言处理领域开辟了新的可能性,特别是对于实时编辑和交互式应用。谷歌一直是人工智能领域的领先者,此次推出的新模型将进一步巩固其在这一领域的地位。
