Command Palette
Search for a command to run...

摘要
图像编辑近年来取得了显著进展。现代编辑模型已能根据复杂指令对原始内容进行操作。然而,除了完成编辑指令外,伴随的物理效应才是实现生成真实感的关键。例如,移除一个物体时,其阴影、反射以及与周围物体的相互作用也应一并消除。遗憾的是,现有模型和评估基准主要关注指令完成度,而忽视了这些物理效应。那么,当前我们距离实现物理真实感的图像编辑还有多远?为回答这一问题,我们提出了 PICABench,该基准系统性地评估了大多数常见编辑操作(如添加、移除、属性变更等)在八个子维度(涵盖光学、力学及状态变化)上的物理真实感。我们进一步提出了 PICAEval 评估协议,该协议采用“视觉语言模型作为裁判”的方式,结合逐案例、区域级别的真人标注与问题,确保评估的可靠性。除构建基准外,我们还通过从视频中学习物理规律,探索了有效的解决方案,并构建了名为 PICA-100K 的训练数据集。在对主流模型进行全面评估后,我们发现物理真实感仍是一个极具挑战性的问题,仍有广阔的研究空间。我们希望本研究所提出的基准与解决方案,能为未来研究从简单的内容编辑迈向物理一致的真实感生成提供坚实基础。