OmniGen:简化图像生成的新统一模型
3 天前
名为 OmniGen 的新型统一图像生成扩散模型,与现有的扩散模型如稳定的扩散模型不同,不再依赖额外的模块(如 ControlNet 或 IP-Adapter)来处理各种控制条件。 OmniGen 具有三大主要特点。首先,它具备高度的统一性,能够生成图像的同时,自然而然地应对其他下游任务,例如图像编辑、主题驱动生成以及视觉条件生成。此外,OmniGen 也可以通过将其转化为图像生成任务的方法来执行传统的计算机视觉任务,比如边缘检测和人体姿态识别。其次,OmniGen 的设计极其简单化,通过取消对额外文字编码器的需求,该模型实现了用户友好,使复杂的任务能够直接通过简单的指令来实现,而不需要像以前那样先进行繁琐的预处理步骤,例如对人体姿态的估算。这样做的好处是大大简化了整个图像生成的过程。最后,OmniGen 利用统一的数据格式进行学习,这有助于在不同任务间有效转移知识。这意味着,即使面对未曾见过的任务或领域,OmniGen 也能展现出新颖的能力。 与此同时,研究团队对于模型的推理能力及如何利用链式思考机制进行了探索,虽然 OmniGen 被认为是一次在通用途图像生成方面的开创性尝试,但项目团队也承认,仍有一些悬而未决的问题有待解决。为了促进该领域的进一步发展和研究,他们计划将与此相关的所有资源,包括代码和数据集,公开至 https://github.com/VectorSpaceLab/OmniGen,便于同行审查和利用。