4 天前
MultiRef:基于多个视觉参考的可控图像生成
Ruoxi Chen, Dongping Chen, Siyuan Wu, Sinan Wang, Shiyun Lang, Petr Sushko, Gaoyang Jiang, Yao Wan, Ranjay Krishna

摘要
视觉设计师通常从多种视觉参考中汲取灵感,通过融合不同的元素与美学原则来创作艺术作品。然而,当前的图像生成框架主要依赖单一输入源——要么是文本提示,要么是单张参考图像。本文聚焦于利用多视觉参考进行可控图像生成的任务。为此,我们提出了 MultiRef-bench,一个严谨的评估框架,包含990个合成样本和1000个真实世界样本,要求模型整合来自多张参考图像的视觉内容。这些合成样本通过我们自研的数据生成引擎 RefBlend 生成,涵盖10种参考类型和33种参考组合。基于 RefBlend,我们进一步构建了一个名为 MultiRef 的数据集,包含38,000张高质量图像,以支持后续研究。我们在三种交错式图像-文本模型(即 OmniGen、ACE 和 Show-o)以及六种代理式框架(如 ChatDiT 和 LLM + SD)上开展实验,结果表明,即使是最先进的系统在多参考条件建模方面仍面临显著挑战:最佳模型 OmniGen 在合成样本上的平均表现仅为66.6%,在真实世界样本上为79.0%(相对于黄金标准答案)。这些发现为开发更具灵活性、更接近人类创造力的视觉生成工具提供了重要方向。相关数据集已公开,访问地址为:https://multiref.github.io/。