Command Palette

Search for a command to run...

21 天前

UniLumos:基于物理合理反馈的快速统一图像与视频重光照

Ropeway Liu Hangjie Yuan Bo Dong Jiazheng Xing Jinwang Wang Rui Zhao Yan Xing Weihua Chen Fan Wang

UniLumos:基于物理合理反馈的快速统一图像与视频重光照

摘要

重光照是一项兼具实际应用需求与艺术价值的关键任务,近年来的扩散模型通过实现丰富且可控的光照效果,展现出巨大潜力。然而,由于这些模型通常在语义隐空间中进行优化,而该空间中的距离关系并不能保证视觉空间中的物理合理性,因此常产生不真实的结果,例如过曝的高光、错位的阴影以及错误的遮挡。为此,我们提出 UniLumos——一个面向图像与视频的统一重光照框架,该框架将RGB空间中的几何反馈引入流匹配(flow matching)主干网络。通过利用模型输出中提取的深度图与法线图进行监督,我们显式地将光照效果与场景结构对齐,从而提升结果的物理合理性。然而,这种反馈机制依赖于高质量的视觉空间输出作为监督信号,导致标准的多步去噪过程计算开销巨大。为缓解此问题,我们引入路径一致性学习(path consistency learning),使监督信号在少步训练设置下依然保持有效性。为进一步实现细粒度的重光照控制与监督,我们设计了一种结构化的六维注释协议,用于捕捉核心光照属性。基于此,我们提出了 LumosBench——一个解耦的属性级评估基准,通过大型视觉-语言模型对光照可控性进行评估,实现对重光照精度在各独立维度上的自动、可解释性分析。大量实验表明,UniLumos 在重光照质量上达到当前最先进水平,同时显著提升了物理一致性,并在图像与视频重光照任务中实现了20倍的加速。代码已开源,地址为:https://github.com/alibaba-damo-academy/Lumos-Custom

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
UniLumos:基于物理合理反馈的快速统一图像与视频重光照 | 论文 | HyperAI超神经