23 天前

DreamOmni2：基于多模态指令的编辑与生成

Bin Xia Bohao Peng Yuechen Zhang Junjia Huang Jiyang Liu Jingyao Li Haoru Tan Sitong Wu Chengyao Wang Yitong Wang

摘要

基于指令的图像编辑与主体驱动生成技术近年来受到广泛关注，但这两项任务在满足实际用户需求方面仍存在诸多局限。基于指令的编辑仅依赖语言指令，往往难以准确捕捉具体的编辑细节，因此通常需要参考图像辅助；而主体驱动生成则局限于具体物体或人物的组合，难以涵盖更广泛、更抽象的概念。为应对上述挑战，我们提出两项新任务：多模态指令驱动的图像编辑与生成。该任务支持文本与图像双重指令输入，并将应用范围拓展至具体与抽象概念的融合，显著提升了其实际应用价值。为此，我们提出了 DreamOmni2 模型，重点攻克两大核心挑战：数据构建与模型框架设计。在数据方面，我们设计了一套三阶段的数据合成流程：（1）采用特征混合方法，生成涵盖抽象与具体概念的提取数据；（2）利用编辑模型与提取模型生成多模态指令驱动的编辑训练数据；（3）进一步通过提取模型构建用于多模态指令驱动编辑的训练数据。在模型架构方面，为有效处理多图像输入，我们提出一种索引编码与位置编码偏移机制，帮助模型区分不同图像输入，避免像素混淆问题。此外，我们引入视觉语言模型（VLM）与生成/编辑模型的联合训练策略，以更高效地理解与执行复杂指令。同时，我们为这两项新任务构建了全面的评估基准，以推动其持续发展。实验结果表明，DreamOmni2 在多项指标上均取得了显著性能提升。相关模型与代码将公开发布。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

DreamOmni2：基于多模态指令的编辑与生成

Bin Xia Bohao Peng Yuechen Zhang Junjia Huang Jiyang Liu Jingyao Li Haoru Tan Sitong Wu Chengyao Wang Yitong Wang3 more

摘要

用 AI 构建 AI

Hyper Newsletters

Bin Xia Bohao Peng Yuechen Zhang Junjia Huang Jiyang Liu Jingyao Li Haoru Tan Sitong Wu Chengyao Wang Yitong Wang