HyperAI超神经
Back to Headlines

AI图像生成新突破:麻省理工团队利用高效一维分词器简化图像编辑与生成过程

7 days ago

AI 图像生成技术依赖于神经网络从各种输入中创建新的图像,包括文字提示,预计到本十年末将成为一个价值数十亿美元的产业。这种强大的技术可以在不到一秒钟的时间内创造出一些充满想象力的图像,比如朋友在火星上插旗或冒险飞入黑洞。然而,要在背后实现这些功能,通常需要对图像生成器进行数周甚至数月的大规模数据集训练,这会消耗大量的计算资源。 今年夏天早些时候,在温哥华举办的国际机器学习会议(ICML 2025)上,来自麻省理工学院(MIT)的研究团队展示了一种全新的方法,可以在不使用生成模型的情况下生成和编辑图像。这篇论文由 MIT 信息与决策系统实验室(LIDS)的研究生研究员卢卡斯·劳·贝耶尔、MIT 计算机科学与人工智能实验室(CSAIL)的博士后研究员李田宏、Facebook AI 研究员陈鑫磊、MIT 航空航天学教授兼 LIDS 主任卡曼以及 MIT 电气工程与计算机科学副教授何凯明共同撰写。 这一研究源于劳·贝耶尔去年秋季参加的一门关于深度生成模型的研究生课程项目。在课程讨论中,他和教课的何凯明教授一致认为这一研究有着巨大的潜力,远超普通作业的范畴。研究团队很快加入了更多合作者,开始展开深入研究。 劳·贝耶尔的研究始于 2024 年 6 月,当时德国慕尼黑工业大学和中国字节跳动公司的研究人员引入了一种称为一维分词器的新方法,能够将 256x256 像素的图像压缩成 32 个数字序列,每个数字序列称为一个“token”。这些 token 可以捕捉整个图像的信息,而不仅仅是某个特定部分。每一个 token 是一个由 1 和 0 组成的 12 位数字,共有约 4,000 种可能的组合。何凯明解释说,“这就像是计算机使用的抽象隐含语言,虽然不是人类的语言,但我们仍然可以尝试理解它的含义。” 劳·贝耶尔通过替换单个 token 观察到了图像的显著变化,如分辨率、背景模糊度和亮度的变化。他还发现了一个与图像姿态相关的 token,例如在鸟的图像中,改变这个 token 可以使鸟的头部从右向左移动。这一发现开辟了新的图像编辑方法。 更进一步,研究团队发现了一种完全绕过生成器创建图像的方法。传统上,生成器和分词器一起工作,分词器将视觉数据压缩编码,生成器则将这些紧凑表示组合排列以创造新图像。MIT 团队只用了 1D 分词器和解码器(即解分词器),并在商用神经网络 CLIP 的引导下,成功地将红熊猫的图像转换为老虎的图像。此外,他们还能从零开始生成图像,最初将所有 token 随机赋值,然后逐步调整使其与所需的文字提示更加匹配。 研究团队还展示了这种设置可以用于“修复”图像,即将图像被遮盖的部分填补完整。这种方法可以显著降低计算成本,因为传统的生成器需要长时间的训练。 这项研究的意义在于它重新定义了分词器的作用。纽约大学计算机科学家谢赛宁评论道:“这项工作表明,图像分词器——通常是仅用于压缩图像的工具——实际上还能做很多其他事情。一维分词器在没有训练完整的生成模型的情况下就能完成修复和文字引导编辑任务,这一点非常令人惊讶。”普林斯顿大学的刘壮也认为,这种新方法展示了生成和编辑图像的简便性,可能将图像生成的成本降低几倍。 研究团队成员卡曼建议,这种技术的影响可能不仅限于计算机视觉领域。例如,可以将自驾车的不同路径进行 tokenize 处理,从而快速扩展该技术的应用范围。这些创新想法也引发了业内人士的广泛兴趣,认为它们可能解锁许多新的应用案例。谢赛宁表示:“这些创新可能为我们带来一些非常酷的应用。” MIT 在计算机科学研究方面一直处于领先地位,其研究成果经常引起行业内外的关注。这次的研究再次证明了 MIT 在推动科技进步方面的实力。

Related Links