HyperAIHyperAI

Command Palette

Search for a command to run...

图像描述

20 小时 RTX 5090 算力资源,仅 $1 (原价 $7)
跳转至 Notebook

摘要

一句话总结

本文提出 FlexHDR,一种高动态范围成像框架。该框架通过 HDR 感知且由不确定性驱动的注意力图来建模对齐与曝光不确定性,从而联合对齐并融合多张低动态范围图像。其渐进式、置换不变的融合策略能够有效抑制鬼影伪影,并在 PSNR 指标上较当前最优方法提升最高达 1.1 dB。

核心贡献

  • 本文提出一种轻量级的 HDR 专用光流网络,通过对称池化操作共享信息,并结合包含曝光不确定性的 HDR 感知自监督损失进行训练,从而估计低动态范围帧之间的像素对应关系。
  • 显式的曝光与对齐不确定性模型在渐进式多阶段融合架构中调节不可靠像素的贡献,该架构支持对任意数量输入进行置换不变处理。
  • 该不确定性驱动框架在 PSNR 指标上较当前最优方法提升最高达 1.1 dB,同时增强了细节保留能力、色彩保真度,并有效减少了鬼影伪影。

引言

高动态范围成像是现代数字摄影的基础,通过融合多张低动态范围曝光图像,使相机能够捕捉极端光照变化场景下曝光良好的细节。然而,先前的深度学习模型通常难以应对运动引起的错位与过曝问题,往往依赖固定的参考帧、固定的输入序列,以及未针对包围曝光图像优化的对齐模块。本文利用一个统一框架,联合建模对齐与曝光不确定性,以生成鲁棒的 HDR 重建结果。研究提出了一种 HDR 专用光流网络,通过对称池化在所有输入间共享信息,结合不确定性驱动的注意力图过滤不可靠像素,并采用灵活的置换不变融合架构,能够按任意顺序处理任意数量的 LDR 图像。

方法

所提方法构建了一个端到端可训练的网络,用于从多张 LDR 图像重建 HDR 图像,旨在处理任意数量的输入并缓解由运动与曝光不确定性引起的伪影。如框架示意图所示,整体架构处理一组 nnn 张输入图像 {X1,X2,,Xn}\{X_1, X_2, \ldots, X_n\}{X1,X2,,Xn},以预测单张 HDR 图像 H^\hat{H}H^。该网络具备置换不变性并以自监督方式运行,采用模块化设计显式建模并缓解 HDR 融合中的两大主要误差来源:运动错位与不可靠的曝光水平。

框架首先通过一组相同的共享权重流独立处理每张输入图像,使网络能够适应任意数量的输入帧。为促进这些流之间的信息共享,采用了一种多阶段融合机制。在网络的不同位置,使用最大池化操作合并各流的特征。具体而言,第 iii 个流在第 kkk 层的特征 FikF_i^kFik 用于计算最大池化特征 Fimax=conv(Fik,max(F1k,,Fnk))F_i^{\text{max}} = \text{conv}(\lceil F_i^k, \max(F_1^k, \ldots, F_n^k) \rceil)Fimax=conv(⌈Fik,max(F1k,,Fnk)⌉),其中 max()\max(\cdot)max() 表示最大池化操作,conv()\text{conv}(\cdot)conv() 为卷积层。该过程在多个阶段重复执行,所有流的最终输出通过全局最大池化操作 Fglobalmax=max(F1k,,Fnk)F_{\text{global}}^{\text{max}} = \max(F_1^k, \ldots, F_n^k)Fglobalmax=max(F1k,,Fnk) 进行聚合,作为融合网络的输入。

第一个主要组件是 HDR 专用迭代光流网络,用于将所有非参考帧对齐到参考帧 IrI_rIr。该网络受 RAFT 启发但专为效率设计,在特征编码器中使用最大池化在所有 nnn 张输入帧间共享信息,使其即使在单帧因过曝包含大面积缺失区域时,仍能预测更准确的光流。特征编码器将输入特征下采样 8 倍,随后循环卷积迭代细化估计的光流场 OiO_iOi。光流网络的输入包括来自图像 XiX_iXi 的特征 FiF_iFi、参考图像的特征 FrF_rFr 以及曝光不确定性图 EiE_iEi。光流场 OiO_iOi 随后用于将特征 FiF_iFi 扭曲变换为 FiwF_i^wFiw。网络采用完全自监督方式训练,通过参考特征 FrF_rFr 与扭曲特征 FiwF_i^wFiw 之间的光度损失进行优化,并利用曝光掩码 ErE_rEr 进行加权,确保监督仅发生在曝光良好的区域。

对齐完成后,网络建模对齐不确定性。不确定性图 UiU_iUi 计算为扭曲特征 FiwF_i^wFiw 与参考特征 FrF_rFr 的绝对差值,并乘以曝光掩码 ErE_rEr 以聚焦可靠区域:Ui=abs(FiwFr)ErU_i = \text{abs}(F_i^w - F_r) \circ E_rUi=abs(FiwFr)Er。该图用于量化错位程度。曝光不确定性由扭曲曝光掩码 EiwE_i^wEiw 表示,其由输入图像的预测曝光图 EiE_iEi 推导得出。注意力网络以扭曲特征 FiwF_i^wFiw、参考特征 FrF_rFr、对齐不确定性 UiU_iUi 及扭曲曝光掩码 EiwE_i^wEiw 作为输入。网络预测一个 64 通道的注意力图 AiA_iAi 以调节各帧的贡献,在此过程中网络继续使用最大池化在各流间共享信息。

最后阶段为融合网络,用于将调节后的特征合并为单张 HDR 图像。该网络基于分组残差密集块(GRDB)架构,由三个残差密集块(RDB)组成。为实现多阶段融合,在每个 RDB 后添加最大池化操作,遵循前述融合机制的公式。这使得不同流的特征能够渐进式合并,避免了单步拼接可能造成的信息丢失。GRDB 的输出随后经过全局残差连接与细化卷积处理,生成最终的线性 HDR 预测结果 H^\hat{H}H^

模型显式建模曝光不确定性以应对不可靠的像素值。对于每张输入图像 IiI_iIi,网络基于图像平均像素值 I^i\hat{I}_iI^i 的分段线性函数预测曝光置信度图 EiE_iEi。如图所示,该函数在 α\alphaαβ\betaβ 之间存在高置信度平台区,且当 I^i\hat{I}_iI^i 趋近于 0 或 1(对应欠曝与过曝区域)时线性递减至零。该曝光图用于在注意力与融合阶段抑制不可靠像素的贡献。

网络采用复合损失函数进行端到端训练。损失函数包含色调映射 L1L_1L1 损失 Ltm\mathcal{L}_{tm}Ltm、基于 VGG 特征的感知损失 Lvgg\mathcal{L}_{vgg}Lvgg,以及用于光流网络的光度损失 Lphot\mathcal{L}_{phot}Lphot。总损失函数为 Ltot=Ltm+Lphot+103Lvgg\mathcal{L}_{tot} = \mathcal{L}_{tm} + \mathcal{L}_{phot} + 10^{-3} \mathcal{L}_{vgg}Ltot=Ltm+Lphot+103Lvgg。色调映射图像通过 μ\muμ-law 从线性 HDR 图像生成,其中 μ=5000\mu=5000μ=5000

实验

评估设置采用动态 HDR 数据集与标准保真度指标,并结合大量视觉评估以验证所提架构。消融实验证实,多阶段融合机制、高效光流网络及可学习的不确定性建模均能显著减少鬼影伪影并增强细节保留能力。性能基准测试表明,该模型在不同光照与运动条件下均稳定优于现有最先进方法。灵活性测试验证了模型无需重新训练即可处理任意输入帧数与参考帧选择的能力。总体而言,该方法以高效的运行速度提供鲁棒且高质量的 HDR 重建,但在严重过曝或欠曝区域生成缺失细节方面仍存在局限。

研究团队开展消融实验以评估 HDR 融合模型中各组件的贡献。结果表明,每个新增组件(尤其是多阶段融合机制与曝光不确定性建模)均在多项指标上带来重建质量的持续提升。包含所有组件的最终模型取得最佳性能,验证了所提架构的有效性。与基线拼接方式相比,多阶段融合机制提升了重建质量。光流网络与曝光不确定性建模对性能提升贡献显著。集成全部组件的完整模型在各项指标上均取得最高性能。

研究团队按组件对模型参数量进行了细分,显示光流网络、注意力网络与融合网络分别贡献 0.87M、0.33M 与 0.92M 参数,总计 2.12M 参数。这表明模型架构由独立的子网络构成,其中融合网络为最大组件。模型总参数量为 2.12M,融合网络是单一最大组件。光流网络贡献 0.87M 参数,为第二大组件。注意力网络为最小组件,贡献 0.33M 参数。

研究团队将所提方法与当前最先进的 HDR 估计技术进行全面对比评估,在多个数据集与指标上展现优越性能。消融实验验证了融合机制、运动对齐与曝光不确定性建模的贡献,结果显示其较基线配置带来一致的性能提升。该方法在 Kalantari 与 Chen 数据集上均取得最佳结果,在所有七项评估指标上超越竞争对手,并对域外数据展现出强大的泛化能力。所提方法在两个数据集的所有指标上均优于所有对比方法,表现出一贯的领先优势。消融实验证实,多阶段融合机制、运动对齐网络与可学习曝光不确定性均对整体性能有显著贡献。模型展现出强泛化性与灵活性,在域外数据上取得高质量结果,且无需重训即可适应不同数量的输入帧。

研究团队在两个数据集上对所提方法与当前最先进方法进行了定量评估,在多项指标上展现优越性能。结果表明,该方法较现有方法带来一致的性能提升,尤其在处理动态场景与降低伪影方面表现突出。模型还展现出灵活性,无需重训即可接受不同数量的输入帧与配置。所提方法在两个数据集的所有指标上均优于所有对比方法,提升效果稳定。模型在定量指标上取得显著增益,尤其在 PSNR 与 SSIM 方面表现优异,并在 HDR-VDP-2 上展现卓越性能。该方法具备高度灵活性,无需重训即可处理不同输入帧数与配置,并对域外数据展现强泛化能力。

研究团队在 Kalantari 测试集上将所提方法与当前最先进方法进行了对比,在单张测试图像上均取得一致的性能提升。结果表明,该方法在大多数图像上优于现有技术,较 AHDR 基线实现显著且稳定的提升。其他方法的表现波动较大,部分方法提升幅度较大,部分则较基线出现性能下降。所提方法在 Kalantari 测试集上持续优于其他方法,相较于 AHDR 基线在每张测试图像上均实现性能提升。较 AHDR 基线的提升稳定且显著,所提方法在大多数测试图像上保持明显领先。其他方法性能波动更为明显,部分方法在特定图像上获得较高增益,但未能在全测试集上保持持续改进。

研究团队在标准数据集上通过全面基准测试与消融实验,评估了 HDR 融合架构与当前最先进方法的对比效果,验证了各网络组件的独立贡献。实验证实,多阶段融合机制、运动对齐模块与曝光不确定性建模共同推动了重建质量的显著提升。完整框架在多种场景下均稳定优于现有技术,同时展现出强大的域外泛化能力与无需重训即可适应不同输入配置的灵活性。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供