
摘要
在本报告中,我们介绍了Ovis-U1,这是一个拥有30亿参数的统一模型,集成了多模态理解、文本到图像生成和图像编辑功能。基于Ovis系列的基础,Ovis-U1结合了一个扩散型视觉解码器和一个双向标记精炼器,使其在图像生成任务上能够与GPT-4o等领先模型相媲美。与一些先前使用冻结多语言大模型(MLLM)进行生成任务的模型不同,Ovis-U1采用了一种新的统一训练方法,从语言模型开始进行训练。相比仅针对理解或生成任务进行训练,统一训练方法表现出更好的性能,这证明了将这两种任务整合在一起所带来的提升。Ovis-U1在OpenCompass多模态学术基准测试中得分为69.6,超过了近期的最先进模型如Ristretto-3B和SAIL-VL-1.5-2B。在文本到图像生成方面,它分别在DPG-Bench和GenEval基准测试中取得了83.72和0.89的高分。对于图像编辑任务,它在ImgEdit-Bench和GEdit-Bench-EN基准测试中的得分分别为4.00和6.42。作为Ovis统一模型系列的首个版本,Ovis-U1推动了多模态理解、生成和编辑技术的边界。