Command Palette
Search for a command to run...
Ruofan Liang Kai He Zan Gojcic Igor Gilitschenski Sanja Fidler Nandita Vijaykumar Zian Wang

摘要
从单张图像或视频中估计场景光照,一直是计算机视觉与图形学领域长期面临的挑战。基于学习的方法受限于真实高动态范围(HDR)环境图的稀缺性——这些环境图获取成本高昂,且多样性不足。尽管近年来生成模型在图像合成方面展现出强大的先验知识,但光照估计仍面临诸多困难,主要源于其依赖间接视觉线索、需要推断全局(非局部)上下文信息,以及恢复高动态范围输出的需求。为此,我们提出 LuxDiT,一种新颖的数据驱动方法,通过微调视频扩散Transformer模型,实现基于视觉输入生成HDR环境图。该模型在大规模合成数据集上进行训练,涵盖多样的光照条件,能够有效从间接视觉线索中推断光照信息,并在真实场景中表现出良好的泛化能力。为进一步提升输入图像与预测环境图之间的语义一致性,我们引入了一种基于收集的HDR全景图数据集的低秩适应微调策略。实验结果表明,所提方法能够生成具有真实感角向高频细节的精确光照预测,在定量与定性评估中均优于现有最先进方法。