3 个月前

摘要

重光照是一项兼具实际应用需求与艺术价值的关键任务，近年来的扩散模型通过实现丰富且可控的光照效果，展现出巨大潜力。然而，由于这些模型通常在语义隐空间中进行优化，而该空间中的距离关系并不能保证视觉空间中的物理合理性，因此常产生不真实的结果，例如过曝的高光、错位的阴影以及错误的遮挡。为此，我们提出 UniLumos——一个面向图像与视频的统一重光照框架，该框架将RGB空间中的几何反馈引入流匹配（flow matching）主干网络。通过利用模型输出中提取的深度图与法线图进行监督，我们显式地将光照效果与场景结构对齐，从而提升结果的物理合理性。然而，这种反馈机制依赖于高质量的视觉空间输出作为监督信号，导致标准的多步去噪过程计算开销巨大。为缓解此问题，我们引入路径一致性学习（path consistency learning），使监督信号在少步训练设置下依然保持有效性。为进一步实现细粒度的重光照控制与监督，我们设计了一种结构化的六维注释协议，用于捕捉核心光照属性。基于此，我们提出了 LumosBench——一个解耦的属性级评估基准，通过大型视觉-语言模型对光照可控性进行评估，实现对重光照精度在各独立维度上的自动、可解释性分析。大量实验表明，UniLumos 在重光照质量上达到当前最先进水平，同时显著提升了物理一致性，并在图像与视频重光照任务中实现了20倍的加速。代码已开源，地址为：https://github.com/alibaba-damo-academy/Lumos-Custom。

源 PDF