HyperAI超神经
Back to Headlines

谷歌DeepMind的Gemini Diffusion:基于扩散的大型语言模型如何加速文本生成

a day ago

6月13日,谷歌DeepMind宣布推出Gemini Diffusion,这是一种基于扩散模型的新型生成方法。传统的大型语言模型(LLM)如GPT和早期版本的Gemini依赖于自回归技术,逐词生成文本,这种方法虽然能够确保上下文的一致性和连贯性,但在长时间内容生成时计算成本高且速度较慢。相比之下,Gemini Diffusion采用扩散模型,从随机噪声开始,逐步去噪生成连贯的文本,可以显著提高生成速度并减少生成错误。 扩散模型与自回归模型的区别 自回归模型逐词生成文本,每个词的预测基于前一个词。这种顺序生成的方式虽然确保了文本的连贯性和上下文的准确性,但计算强度大,尤其是在处理长篇内容时。而扩散模型则不同,它们从随机噪声开始,通过多个步骤逐渐去除噪声,生成完整的文本。这种方法支持并行处理,因此可以在更短的时间内生成更多的内容。 Gemini Diffusion的技术特点 在训练过程中,扩散模型通过对原句逐步添加噪声,使得句子逐渐变得无法辨认。然后,模型学会如何逆向去噪,从完全噪声的状态逐步还原原有的句子结构。这一过程经过数百万次的重复,使模型能够学习到可靠的去噪函数。生成阶段中,模型根据输入条件(如提示、类标签或嵌入向量),逐步将随机噪声转化为结构化且连贯的文本。 Google提供的数据显示,Gemini Diffusion在多种基准测试中的表现与Gemini 2.0 Flash-Lite相当,甚至在某些领域略胜一筹。例如,在编程和数学测试中,Gemini Diffusion的表现更好,而在推理、科学知识和多语言能力方面则略逊一筹。然而,随着技术的进一步发展,其性能有望赶上甚至超越现有的自回归模型。 实际应用的测试表现 VentureBeat获得了Gemini Diffusion的实验版本测试机会。测试显示,Gemini Diffusion能够在短短几秒内完成复杂的任务,如生成交互式HTML应用程序。在一个视频聊天界面生成的任务中,Gemini Diffusion在不到两秒内创建了一个带有摄像头预览窗口和实时音频电平表的完整接口,展示出其在低延迟和实时响应方面的优势。 Gemini Diffusion还引入了“即时编辑”模式,只需少量提示即可编辑文本或代码。这一功能在调整语法、针对不同读者优化文本、添加SEO关键词以及重构代码、增添新功能等方面表现出色。 扩散模型的优势与挑战 根据Google DeepMind的研究科学家Brendan O’Donoghue所述,扩散模型的主要优势包括生成速度极快、在非局部一致性任务(如编程和推理)上表现优秀。然而,也有一些明显的缺点,比如在服务成本上较高,且首次生成的时间比自回归模型稍长一些。尽管如此,对于需要快速响应的应用场景,如对话AI、实时转录和翻译、IDE自动完成功能等,DLMs仍然具有巨大潜力。 业内评价与公司背景 Gemini Diffusion的推出不仅展示了谷歌在AI领域的持续创新力,也反映了扩散模型技术在生成任务中的快速发展。目前,DLMs仍处于初级阶段,但其潜力已引起广泛关注。除谷歌外,Inception Labs开发的Mercury和GSAI推出的开源模型LLaDa也是该领域的代表作,共同推动了扩散模型在大型语言生成中的应用。这些模型提供了一种更加高效、并行化的替代方案,未来有望重塑LLM的部署方式。 总的来说,尽管扩散模型还面临一些挑战,其在生成速度和非局部一致性任务上的显著优势,使其成为未来发展的一个重要方向。

Related Links