Command Palette
Search for a command to run...
Ropeway Liu Hangjie Yuan Bo Dong Jiazheng Xing Jinwang Wang Rui Zhao Yan Xing Weihua Chen Fan Wang

摘要
重光照是一项兼具实际应用需求与艺术价值的关键任务,近年来的扩散模型通过实现丰富且可控的光照效果,展现出巨大潜力。然而,由于这些模型通常在语义隐空间中进行优化,而该空间中的距离关系并不能保证视觉空间中的物理合理性,因此常产生不真实的结果,例如过曝的高光、错位的阴影以及错误的遮挡。为此,我们提出 UniLumos——一个面向图像与视频的统一重光照框架,该框架将RGB空间中的几何反馈引入流匹配(flow matching)主干网络。通过利用模型输出中提取的深度图与法线图进行监督,我们显式地将光照效果与场景结构对齐,从而提升结果的物理合理性。然而,这种反馈机制依赖于高质量的视觉空间输出作为监督信号,导致标准的多步去噪过程计算开销巨大。为缓解此问题,我们引入路径一致性学习(path consistency learning),使监督信号在少步训练设置下依然保持有效性。为进一步实现细粒度的重光照控制与监督,我们设计了一种结构化的六维注释协议,用于捕捉核心光照属性。基于此,我们提出了 LumosBench——一个解耦的属性级评估基准,通过大型视觉-语言模型对光照可控性进行评估,实现对重光照精度在各独立维度上的自动、可解释性分析。大量实验表明,UniLumos 在重光照质量上达到当前最先进水平,同时显著提升了物理一致性,并在图像与视频重光照任务中实现了20倍的加速。代码已开源,地址为:https://github.com/alibaba-damo-academy/Lumos-Custom。