苹果研究团队复活归一化流技术,推出高效图像生成模型TarFlow和STARFlow
苹果研究团队近日发布了两篇论文,介绍了如何利用一种几乎被遗忘的人工智能模型——归一化流(Normalizing Flows,简称NFs)来生成图像。这项技术为现有的扩散模型和自回归模型之外提供了另一种选择,具有独特的优势和潜力。 归一化流简介 归一化流是一种能够学习转换现实世界数据(如图像)到结构化噪声,然后反方向生成新样本的AI模型。与扩散模型不同的是,归一化流可以精确计算生成每张图像的确切概率,这对于需要理解结果概率的任务特别有用。然而,早期的归一化流模型生成的图像模糊且缺乏细节,这使得它们在近年来逐渐失去了关注。 Paper 1: TarFlow 在第一篇论文“归一化流是有能力的生成模型”中,苹果推出了一种名为TarFlow的新模型,即Transformer Autoregressive Flow。该模型通过用Transformer块替换早期模型中手工设计的层,改进了归一化流的性能。具体的实现方式是将图像分成小块,逐块生成,每个块的预测依赖于之前生成的所有块。这种方法与OpenAI目前用于图像生成的自回归方法类似,但不同之处在于TarFlow直接生成像素值,而不是先将图像转化为离散的符号序列。这样一来,苹果避免了图像质量损失和生成过程中可能的僵硬问题。不过,这种方法在生成高分辨率图像时依然面临挑战。 Paper 2: STARFlow 为了克服这一局限性,苹果在第二篇论文“STARFlow:扩展隐空间归一化流用于高分辨率图像合成”中进一步改进了模型,推出了STARFlow。STARFlow在生成图像时不再直接在像素空间操作,而是先生成一个压缩的图像版本,最后由解码器将其还原为全分辨率图像。这种方法使得模型可以在生成时专注于图像的大结构,而将细纹理细节留给解码器处理,大大提高了生成效率和质量。 此外,苹果还重新设计了模型处理文本提示的方式。STARFlow可以直接接入现有的语言模型(例如谷歌的小型语言模型Gemma),当用户要求生成图像时,这些语言模型负责处理文本理解,从而使得图像生成部分更加专注于视觉细节的优化。这种方式不仅简化了模型结构,还增加了生成图像的多样性和精度。 STARFlow 与 OpenAI 的 GPT-4o 对比 OpenAI 最近也推出了其新型图像生成模型 GPT-4o,但其方法与苹果的归一化流技术截然不同。GPT-4o 将图像视为一组离散的符号,类似于句子中的单词。当用户通过ChatGPT请求生成图像时,模型会逐个符号地预测图像,逐步构建出整个图像。这种方法的最大优势在于灵活性:同一种模型可以在同一个符号流中生成文本、图像和音频。但这种逐符号生成的方式速度较慢,计算成本较高。由于GPT-4o完全在云端运行,OpenAI不需要特别考虑延迟和功耗问题。 相比之下,苹果的STARFlow显然是为了设备端应用进行了优化。它更注重生成质量和速度,适用于智能手机和平板电脑等移动设备,能够在本地高效运行而不会占用过多资源。 业内评价 业内人士普遍认为,苹果的研究为归一化流技术注入了新的活力。长期以来,归一化流因为生成质量不佳而被边缘化,这次的研究成果显示出其在图像生成领域依然有巨大潜力。苹果的这两篇论文不仅展示了创新的技术思路,还为未来的人工智能应用拓展了新的方向。 公司背景 苹果是一家全球领先的科技公司,以其在消费电子、软件和服务领域的产品闻名。在人工智能方面,苹果一直致力于开发能够在本地高效运行的模型,以提升用户体验并保护用户隐私。此次发布的STARFlow正是这一理念的具体体现。