18 天前

Skywork UniPic:面向视觉理解与生成的统一自回归建模

Peiyu Wang, Yi Peng, Yimeng Gan, Liang Hu, Tianyidan Xie, Xiaokun Wang, Yichen Wei, Chuanxin Tang, Bo Zhu, Changshi Li, Hongyang Wei, Eric Li, Xuchen Song, Yang Liu, Yahui Zhou
Skywork UniPic:面向视觉理解与生成的统一自回归建模
摘要

我们提出 Skywork UniPic,一个参数量为 15 亿的自回归模型,该模型在单一架构内统一实现了图像理解、文本到图像生成以及图像编辑功能,无需依赖特定任务的适配器或模块间连接器。实验表明,紧凑型多模态系统可在消费级硬件上实现当前最先进的性能。Skywork UniPic 在 GenEval 评测中取得 0.86 的得分,超越了大多数现有统一模型;在 DPG-Bench 复杂图像生成任务中创下 85.5 的新纪录;在图像编辑任务中,GEditBench-EN 得分为 5.83,ImgEdit-Bench 得分为 3.49;同时可在 GPU 显存低于 15 GB(例如 RTX 4090)的条件下生成 1024×1024 分辨率的图像。Skywork UniPic 的核心技术包括:(1)一种解耦的编码策略,采用掩码自回归编码器进行图像合成,同时使用 SigLIP2 编码器实现图像理解,二者共同输入共享的自回归解码器;(2)一种渐进式、分辨率感知的训练策略,从 256×256 逐步扩展至 1024×1024,同时动态解冻参数,以在模型容量与训练稳定性之间取得平衡;(3)经过精心构建、规模达一亿级的数据集,并通过任务特定的奖励模型进行增强,以优化生成与编辑目标。通过证明高保真多模态融合无需付出高昂的资源代价,Skywork UniPic 建立了一种可部署、高保真多模态人工智能的实用范式。代码与模型权重已公开发布于 https://huggingface.co/Skywork/Skywork-UniPic-1.5B。