Command Palette
Search for a command to run...

摘要
近年来,多模态生成模型的进展显著推动了图像编辑技术的发展。然而,当前的生成模型在处理需要隐式推理的多样化、复杂图像编辑任务时仍面临挑战,凸显出构建一个全面基准以系统评估其在各类推理场景下性能的迫切需求。现有基准主要聚焦于现实场景中单个对象的属性变换任务,尽管此类方法在特定情境下有效,但仍存在两个关键问题:(1)它们大多忽视了多对象之间的交互关系,以及涉及人为定义规则的游戏世界场景——而这些在真实应用中极为常见;(2)评估仅依赖文本参考,可能导致系统性误判,尤其在复杂推理场景中更为显著。为此,本文提出 UniREditBench,一个面向基于推理的图像编辑评估的统一基准。该基准包含2,700个精心筛选的样本,覆盖现实世界与游戏世界场景,涵盖8个主要维度和18个子维度。为提升评估的可靠性,我们引入多模态双参考评估机制,为每个样本的评估同时提供文本参考与真实图像参考。此外,我们设计了一套自动化多场景数据合成管道,构建了大规模合成数据集 UniREdit-Data-100K,该数据集具备高质量的思维链(Chain-of-Thought, CoT)推理标注。基于此数据集对 Bagel 模型进行微调,我们开发出 UniREdit-Bagel 模型,在域内(in-domain)与域外(out-of-distribution)设置下均展现出显著性能提升。通过对开源与闭源图像编辑模型的全面基准测试,我们系统揭示了各类模型在不同维度上的优势与局限。