Command Palette
Search for a command to run...

摘要
基于指令的图像编辑与主体驱动生成技术近年来受到广泛关注,但这两项任务在满足实际用户需求方面仍存在诸多局限。基于指令的编辑仅依赖语言指令,往往难以准确捕捉具体的编辑细节,因此通常需要参考图像辅助;而主体驱动生成则局限于具体物体或人物的组合,难以涵盖更广泛、更抽象的概念。为应对上述挑战,我们提出两项新任务:多模态指令驱动的图像编辑与生成。该任务支持文本与图像双重指令输入,并将应用范围拓展至具体与抽象概念的融合,显著提升了其实际应用价值。为此,我们提出了 DreamOmni2 模型,重点攻克两大核心挑战:数据构建与模型框架设计。在数据方面,我们设计了一套三阶段的数据合成流程:(1)采用特征混合方法,生成涵盖抽象与具体概念的提取数据;(2)利用编辑模型与提取模型生成多模态指令驱动的编辑训练数据;(3)进一步通过提取模型构建用于多模态指令驱动编辑的训练数据。在模型架构方面,为有效处理多图像输入,我们提出一种索引编码与位置编码偏移机制,帮助模型区分不同图像输入,避免像素混淆问题。此外,我们引入视觉语言模型(VLM)与生成/编辑模型的联合训练策略,以更高效地理解与执行复杂指令。同时,我们为这两项新任务构建了全面的评估基准,以推动其持续发展。实验结果表明,DreamOmni2 在多项指标上均取得了显著性能提升。相关模型与代码将公开发布。