HyperAI超神经
15 days ago

OmniGen2:探索高级多模态生成

Chenyuan Wu, Pengfei Zheng, Ruiran Yan, Shitao Xiao, Xin Luo, Yueze Wang, Wanli Li, Xiyan Jiang, Yexin Liu, Junjie Zhou, Ze Liu, Ziyi Xia, Chaofan Li, Haoge Deng, Jiahao Wang, Kun Luo, Bo Zhang, Defu Lian, Xinlong Wang, Zhongyuan Wang, Tiejun Huang, Zheng Liu
OmniGen2:探索高级多模态生成
摘要

在这项工作中,我们介绍了OmniGen2,这是一款多功能且开源的生成模型,旨在为多种生成任务提供统一的解决方案,包括文本到图像生成、图像编辑和上下文生成。与OmniGen v1不同,OmniGen2为文本和图像模态设计了两条独立的解码路径,采用了非共享参数和分离的图像分词器。这一设计使得OmniGen2能够在现有的多模态理解模型基础上进行构建,而无需重新适应VAE输入,从而保留了原有的文本生成能力。为了促进OmniGen2的训练,我们开发了全面的数据构建管道,涵盖了图像编辑和上下文生成数据。此外,我们引入了一种专门针对图像生成任务的反射机制,并基于OmniGen2精心策划了一个专用的反射数据集。尽管其参数规模相对较小,OmniGen2在多个任务基准测试中仍取得了具有竞争力的结果,包括文本到图像生成和图像编辑。为了进一步评估上下文生成(也称为主题驱动任务),我们引入了一个新的基准测试——OmniContext。在一致性方面,OmniGen2在开源模型中达到了最先进的性能。我们将发布我们的模型、训练代码、数据集和数据构建管道,以支持该领域的未来研究。项目页面:https://vectorspacelab.github.io/OmniGen2;GitHub链接:https://github.com/VectorSpaceLab/OmniGen2