5 个月前

计算机视觉

Ruofan Liang Kai He Zan Gojcic Igor Gilitschenski Sanja Fidler Nandita Vijaykumar Zian Wang

摘要

从单张图像或视频中估计场景光照，一直是计算机视觉与图形学领域长期面临的挑战。基于学习的方法受限于真实高动态范围（HDR）环境图的稀缺性——这些环境图获取成本高昂，且多样性不足。尽管近年来生成模型在图像合成方面展现出强大的先验知识，但光照估计仍面临诸多困难，主要源于其依赖间接视觉线索、需要推断全局（非局部）上下文信息，以及恢复高动态范围输出的需求。为此，我们提出 LuxDiT，一种新颖的数据驱动方法，通过微调视频扩散Transformer模型，实现基于视觉输入生成HDR环境图。该模型在大规模合成数据集上进行训练，涵盖多样的光照条件，能够有效从间接视觉线索中推断光照信息，并在真实场景中表现出良好的泛化能力。为进一步提升输入图像与预测环境图之间的语义一致性，我们引入了一种基于收集的HDR全景图数据集的低秩适应微调策略。实验结果表明，所提方法能够生成具有真实感角向高频细节的精确光照预测，在定量与定性评估中均优于现有最先进方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

5 个月前

计算机视觉

Ruofan Liang Kai He Zan Gojcic Igor Gilitschenski Sanja Fidler Nandita Vijaykumar Zian Wang

摘要

从单张图像或视频中估计场景光照，一直是计算机视觉与图形学领域长期面临的挑战。基于学习的方法受限于真实高动态范围（HDR）环境图的稀缺性——这些环境图获取成本高昂，且多样性不足。尽管近年来生成模型在图像合成方面展现出强大的先验知识，但光照估计仍面临诸多困难，主要源于其依赖间接视觉线索、需要推断全局（非局部）上下文信息，以及恢复高动态范围输出的需求。为此，我们提出 LuxDiT，一种新颖的数据驱动方法，通过微调视频扩散Transformer模型，实现基于视觉输入生成HDR环境图。该模型在大规模合成数据集上进行训练，涵盖多样的光照条件，能够有效从间接视觉线索中推断光照信息，并在真实场景中表现出良好的泛化能力。为进一步提升输入图像与预测环境图之间的语义一致性，我们引入了一种基于收集的HDR全景图数据集的低秩适应微调策略。实验结果表明，所提方法能够生成具有真实感角向高频细节的精确光照预测，在定量与定性评估中均优于现有最先进方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供