HyperAI초신경
Back to Headlines

MIT 연구팀, AI 이미지 생성 기술 혁신

7일 전

새로운 이미지 편집 및 생성 방식 AI 이미지 생성은 신경망을 이용해 다양한 입력, 예를 들어 텍스트 프롬프트에서 새로운 이미지를 생성하는 기술로, 이번 십 년 말까지 수십억 달러 규모의 산업으로 성장할 것으로 예상된다. 오늘날의 기술로는, 친구가 화성에 깃발을 꽂는 모습이나 블랙홀 속으로 무모하게 날아드는 모습과 같은 상상력 넘치는 그림을 만들기 위해 1초도 걸리지 않을 수 있다. 그러나 이러한 이미지 생성기들이 이런 작업을 수행하기 전에는, 수백만 개의 이미지와 관련된 텍스트로 구성된 거대한 데이터셋을 사용해 몇 주 또는 몇 달 동안 훈련을 받아야 한다. 이 과정은 막대한 계산 자원을 소비한다. 하지만 AI 방법을 사용해 생성기를 사용하지 않고도 이미지를 생성할 수 있는 가능성에 대해 국제 기계 학습 회의(ICML 2025)에서 발표된 연구 논문에서 소개되었다. 이 논문은 MIT 정보 및 결정 시스템 연구실(LIDS)의 대학원 연구원인 루카스 라오 베이어, MIT 컴퓨터 과학 및 인공 지능 연구소(CSAIL)의 박사후 연구원인 티엔홍 리, 페이스북 AI 연구소의 신레이 첸, MIT 항공우주학 교수이자 LIDS 소장인 세르타크 카라만, 그리고 MIT 전기공학 및 컴퓨터 과학 부교수인 캐밍 헤가 공동 저자로 참여했다. 이 공동 연구는 라오 베이어가 지난 가을에 수강했던 딥 제너레이티브 모델에 관한 대학원 세미나 프로젝트에서 시작되었다. 라오 베이어와 강사인 헤 교수는 이 연구가 일반적인 과제를 넘어 실제 잠재력을 가지고 있다는 점을 인식하고, 다른 협력자들을 참여시켰다. 라오 베이어의 연구는 2024년 6월에慕尼黑工业大学和中国公司ByteDance的研究人员发表的一篇论文为起点。该论文介绍了一种新的表示视觉信息的方法,称为一维标记器。通过这种设备,即一种神经网络,256x256像素的图像可以被转换成仅32个数字(标记)的序列。每个标记是一个由1和0组成的12位数字,总共提供2^12(约4,000种)可能性。“这就像一种由4,000个词汇组成的抽象、隐藏语言,计算机用它来交流,”赫教授解释道。“虽然不像人类语言,但我们仍然可以尝试理解它的含义。” 拉奥·贝耶最初的目标是探索这些标记的具体作用。他采取的方法相当直接:如果你想了解某个特定标记的作用,拉奥·贝耶说,“你可以把它取出来,换一个随机值,然后看看输出是否有可识别的变化。” 他发现,替换一个标记可以改变图像质量,将低分辨率图像变成高分辨率图像或反之亦然。另一个标记影响背景的模糊度,而另一个则影响亮度。他还发现了一个与‘姿势’相关的标记,例如,在一张知更鸟的图像中,鸟头可能会从右边移到左边。 “这是一个前所未有的结果,因为没有人观察到通过操纵标记可以产生视觉上可识别的变化,”拉奥·贝耶说。这一发现提出了一个新的图像编辑方法。事实上,MIT研究小组展示了一种简化和自动化的流程,使得不必手动逐一修改标记就能实现图像编辑。 赫教授和他的同事们在图像生成方面也取得了更为重要的成果。通常,能够生成图像的系统需要一个标记器(用于压缩和编码视觉数据)以及一个生成器(用于组合和排列这些紧凑表示以创建新图像)。然而,MIT研究人员找到了一种不使用生成器也能生成图像的新方法。他们的新方法利用了一维标记器和所谓的解码器(也称为解标记器),可以从标记字符串中重建图像。此外,通过使用现成的神经网络模型CLIP——该模型虽不能自动生成图像,但可以测量给定图像与特定文本提示的匹配程度——团队能够将一只红熊猫的图像转换成老虎的图像。他们还可以从零开始完全创建老虎或其他所需形式的图像——所有标记最初都赋予随机值,然后逐步调整,使重建的图像逐渐符合所需的文本提示。 研究团队还展示了,使用相同的设置——依赖于标记器和解标记器,但不使用生成器——他们可以进行“图像修补”,即将图像中缺失的部分填补完整。由于生成器通常需要广泛的训练,因此避免使用生成器进行某些任务可以显著降低计算成本。 “我们团队的贡献似乎有点奇怪,”赫教授解释说,“我们没有发明任何新的东西。我们没有发明一维标记器,也没有发明CLIP模型。但我们确实发现,当把这些组件放在一起时,会出现新的能力。”纽约大学的计算机科学家谢赛宁评论道:“这项工作重新定义了标记器的角色。它表明,图像标记器——通常只用于压缩图像的工具——实际上可以做更多事情。一个简单的(但高度压缩的)一维标记器能够处理不需要全面训练生成模型的任务,如图像修补或文本引导编辑,这令人惊讶。” 普林斯顿大学的刘庄也表示赞同,称MIT团队的工作“展示了我们可以通过比以前想象的更简单的方式来生成和操作图像。基本上,这证明了图像生成可以成为非常有效的图像压缩器的副产品,潜在地将生成图像的成本降低几倍。”卡拉曼教授建议,这些技术的应用可能不仅限于计算机视觉领域。“例如,我们可以考虑以相同方式对机器人或自动驾驶汽车的动作进行标记,这可能会迅速扩大这项工作的影响力。”拉奥·贝耶也有类似的思考,指出一维标记器提供的极端压缩量可以实现“一些惊人的事情”,并应用于其他领域。例如,在他感兴趣的自动驾驶汽车领域,标记可以代表车辆可能采取的不同路线。 谢赛宁也对这些创新想法可能带来的应用感到好奇。“这可能会解锁一些非常酷的用例,”他说。 이 연구는 이미지 생성과 편집 분야에서 혁신적인 접근 방식을 제시하며, 이미지 생성의 비용과 시간을 크게 줄일 가능성을 열었다. 또한, 이 기술이 로봇공학이나 자율주행차량 등 다른 분야에서도 활용될 수 있을 것으로 기대된다. MIT 연구팀의 이 발견은 이미지 처리뿐만 아니라 다양한 응용 분야에서의 발전을 촉진할 것으로 보인다.

Related Links