
摘要
我们提出 Skywork UniPic,一个参数量为 15 亿的自回归模型,该模型在单一架构内统一实现了图像理解、文本到图像生成以及图像编辑功能,无需依赖特定任务的适配器或模块间连接器。实验表明,紧凑型多模态系统可在消费级硬件上实现当前最先进的性能。Skywork UniPic 在 GenEval 评测中取得 0.86 的得分,超越了大多数现有统一模型;在 DPG-Bench 复杂图像生成任务中创下 85.5 的新纪录;在图像编辑任务中,GEditBench-EN 得分为 5.83,ImgEdit-Bench 得分为 3.49;同时可在 GPU 显存低于 15 GB(例如 RTX 4090)的条件下生成 1024×1024 分辨率的图像。Skywork UniPic 的核心技术包括:(1)一种解耦的编码策略,采用掩码自回归编码器进行图像合成,同时使用 SigLIP2 编码器实现图像理解,二者共同输入共享的自回归解码器;(2)一种渐进式、分辨率感知的训练策略,从 256×256 逐步扩展至 1024×1024,同时动态解冻参数,以在模型容量与训练稳定性之间取得平衡;(3)经过精心构建、规模达一亿级的数据集,并通过任务特定的奖励模型进行增强,以优化生成与编辑目标。通过证明高保真多模态融合无需付出高昂的资源代价,Skywork UniPic 建立了一种可部署、高保真多模态人工智能的实用范式。代码与模型权重已公开发布于 https://huggingface.co/Skywork/Skywork-UniPic-1.5B。