Command Palette

Search for a command to run...

23 天前

DreamOmni2:基于多模态指令的编辑与生成

DreamOmni2:基于多模态指令的编辑与生成

摘要

基于指令的图像编辑与主体驱动生成技术近年来受到广泛关注,但这两项任务在满足实际用户需求方面仍存在诸多局限。基于指令的编辑仅依赖语言指令,往往难以准确捕捉具体的编辑细节,因此通常需要参考图像辅助;而主体驱动生成则局限于具体物体或人物的组合,难以涵盖更广泛、更抽象的概念。为应对上述挑战,我们提出两项新任务:多模态指令驱动的图像编辑与生成。该任务支持文本与图像双重指令输入,并将应用范围拓展至具体与抽象概念的融合,显著提升了其实际应用价值。为此,我们提出了 DreamOmni2 模型,重点攻克两大核心挑战:数据构建与模型框架设计。在数据方面,我们设计了一套三阶段的数据合成流程:(1)采用特征混合方法,生成涵盖抽象与具体概念的提取数据;(2)利用编辑模型与提取模型生成多模态指令驱动的编辑训练数据;(3)进一步通过提取模型构建用于多模态指令驱动编辑的训练数据。在模型架构方面,为有效处理多图像输入,我们提出一种索引编码与位置编码偏移机制,帮助模型区分不同图像输入,避免像素混淆问题。此外,我们引入视觉语言模型(VLM)与生成/编辑模型的联合训练策略,以更高效地理解与执行复杂指令。同时,我们为这两项新任务构建了全面的评估基准,以推动其持续发展。实验结果表明,DreamOmni2 在多项指标上均取得了显著性能提升。相关模型与代码将公开发布。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供