KRIS-Bench:高级智能图像编辑模型的基准测试
Yongliang Wu, Zonghui Li, Xinting Hu, Xinyu Ye, Xianfang Zeng, Gang Yu, Wenbo Zhu, Bernt Schiele, Ming-Hsuan Yang, Xu Yang
发布日期: 5/25/2025

摘要
近期在多模态生成模型方面的进展已经使得基于指令的图像编辑取得了显著进步。然而,尽管这些模型能够生成视觉上合理的输出,它们在知识推理编辑任务方面的能力仍待深入探索。本文中,我们介绍了KRIS-Bench(基于知识推理的图像编辑系统基准测试),这是一个旨在通过认知视角评估模型的诊断基准测试。借鉴教育理论,KRIS-Bench将编辑任务分为三种基础知识类型:事实型、概念型和程序型。基于这一分类体系,我们设计了涵盖7个推理维度的22个代表性任务,并发布了1,267个高质量注释的编辑实例。为了支持细粒度评估,我们提出了一种全面的评估协议,该协议引入了一种新的知识合理性指标(Knowledge Plausibility metric),并通过知识提示和人类研究进行增强和校准。对10个最先进模型的实证结果揭示了推理性能上的显著差距,突显了需要以知识为中心的基准测试来推动智能图像编辑系统的发展。