UniWorld: 高分辨率语义编码器用于统一视觉理解与生成
Bin Lin, Zongjian Li, Xinhua Cheng, Yuwei Niu, Yang Ye, Xianyi He, Shenghai Yuan, Wangbo Yu, Shaodong Wang, Yunyang Ge, Yatian Pang, Li Yuan
发布日期: 6/4/2025

摘要
尽管现有的统一模型在视觉-语言理解和文本到图像生成任务中表现出色,但在图像感知和操作任务方面仍存在局限性,这些任务因广泛的应用需求而受到用户的迫切关注。近日,OpenAI 发布了其强大的 GPT-4o-Image 模型,该模型在全面的图像感知和操作任务中展现出卓越的能力,并吸引了社区的广泛关注。通过仔细设计的实验观察 GPT-4o-Image 的性能,我们推断 GPT-4o-Image 利用了语义编码器提取的特征,而不是变分自编码器(VAE),尽管 VAE 被认为是许多图像操作模型中的关键组件。受此启发,我们提出了一种基于强大视觉-语言模型和对比语义编码器提供的语义特征的统一生成框架,命名为 UniWorld。结果表明,仅使用 BAGEL 数据量的 1%,我们就构建了一个在图像编辑基准测试中持续超越 BAGEL 的强大统一模型。UniWorld 还保持了具有竞争力的图像理解和生成能力,在多个图像感知任务中表现出色。我们完全开源了我们的模型,包括模型权重、训练和评估脚本以及数据集。