HyperAIHyperAI

Command Palette

Search for a command to run...

RL-AWB:基于深度强化学习的低光照夜间场景自动白平衡校正

Yuan-Kang Lee Kuan-Lin Chen Chia-Che Chang Yu-Lun Liu

Abstract

夜间白平衡(white balance)的色彩恒常性问题在计算摄影领域仍是一个极具挑战性的难题,主要源于低光照条件下的噪声干扰以及复杂的光照环境。本文提出了一种名为RL-AWB的新框架,该框架将统计方法与深度强化学习相结合,用于解决夜间场景下的白平衡问题。我们的方法首先采用一种专为夜间场景设计的统计算法,通过融合显著灰度像素检测与新颖的光照估计技术,实现对环境光的精准建模。在此基础上,我们首次构建了基于深度强化学习的色彩恒常性方法,以该统计算法为核心,通过动态调整参数,模拟专业白平衡调校专家的决策过程,针对每张图像进行自适应优化。为支持跨传感器的评估,我们还构建了首个多传感器夜间图像数据集。实验结果表明,所提方法在低光照与正常光照图像之间均展现出卓越的泛化能力。项目主页:https://ntuneillee.github.io/research/rl-awb/

一句话总结

联发科、台湾大学与阳明交通大学的研究人员提出 RL-AWB,一种新颖的框架,将夜间优化的统计色温校正算法与深度强化学习相结合,无需真实光照标签即可动态调整白平衡参数,在低光照和复杂光照条件下实现了卓越的跨传感器泛化能力。

主要贡献

  • 我们提出 SGP-LRD,一种专为夜间场景设计的统计色温校正算法,通过结合显著灰像素检测与局部反射率差异,提升光照估计性能,在公开的夜间基准测试中达到最先进水平。
  • 我们提出 RL-AWB,首个用于自动白平衡的深度强化学习框架,通过两阶段课程学习的 Soft Actor-Critic 算法动态优化统计算法参数,实现无需真实光照标签的自适应、数据高效调参。
  • 我们发布 LEVI,首个包含两个相机传感器共 700 张图像的多传感器夜间数据集,支持严格的跨传感器评估,并证明 RL-AWB 仅需每数据集 5 张训练图像即可实现卓越泛化能力。

引言

作者针对低光照夜间场景中自动白平衡(AWB)的挑战展开研究,传统方法在高噪声、混合光照和不可靠颜色统计条件下表现不佳。先前的统计方法与深度学习方法均在此类场景下失效——统计方法依赖固定参数,在噪声密集环境中失效;而基于学习的方法需要大量标注数据,且跨传感器泛化能力差。为克服这些局限,作者提出 RL-AWB,一种融合新型夜间专用统计算法 SGP-LRD 与深度强化学习的混合框架。强化学习智能体通过两阶段课程学习训练的 Soft Actor-Critic 策略,动态优化 SGP-LRD 的关键超参数——灰像素采样比例与 Minkowski 指数,实现快速、自适应且可解释的参数调优。该方法仅需极少训练数据(每数据集仅 5 张图像)即可达到最先进性能,并具备强大的跨传感器泛化能力,其有效性在新提出的 LEVI 数据集上得到验证,该数据集支持多传感器评估。

数据集

  • LEVI 数据集是为解决先前 NCC 数据集局限性而引入的新多相机夜间色温校正基准,NCC 数据集仅包含来自单一相机的 513 张图像。
  • LEVI 包含 700 张线性 RAW 图像,采集自两个相机系统:370 张来自 iPhone 16 Pro(4320×2160,12 位)和 330 张来自 Sony ILCE-6400(6000×4000,14 位),ISO 值范围为 500 至 16,000,覆盖多样化的低光照条件。
  • 每个场景均包含 Macbeth Color Checker,并配有手动标注的掩码,支持精确的真实光照估计。真实光照通过色板上非饱和中性色块的中位数 RGB 值计算得出。
  • 所有图像均经过黑电平校正,并转换为线性 RGB 空间,以确保算法处理的一致性与兼容性。
  • 数据集包含每张图像的详细元数据,如焦距(mm)、光圈值(F-number)、曝光时间(s)和 ISO,支持分析相机设置对光照估计的影响。
  • 为模型训练与评估,所有数据集(包括 LEVI 和 NCC)的图像均归一化至统一分辨率:LEVI 中的 iPhone 16 Pro 图像下采样至 0.25×,Sony ILCE-6400 图像及所有 NCC 图像下采样至 0.125×。
  • RL-AWB(SAC)模型使用批量大小 256、学习率 3×10⁻⁴、γ=0.99、τ=0.005,在 16 个并行环境中训练 150,000 个时间步,前 100 步后开始更新。
  • 性能评估采用标准的角误差度量(单位:度),数据集支持跨传感器泛化评估,并提升在不同成像条件下低光照色温校正的评估精度。

方法

所提出的框架将数据驱动的强化学习(RL)方法与鲁棒的夜间色温校正算法 SGP-LRD 相结合,实现自适应白平衡调优。整体架构旨在根据场景特征学习 SGP-LRD 算法的最优参数配置,实现自动化且高效的光照估计。系统运行于两种主要模式:传统专家驱动调参流程,以及本文提出的 RL-AWB 框架,后者可自主学习参数适应。

该方法的核心是 SGP-LRD 算法,其通过识别并利用显著灰像素来估计场景光照。过程始于灰像素检测,像素按其灰度程度排序,灰度由其局部对比度向量与灰度方向之间的角误差衡量。该初始集合通过两层滤波过程进行优化,以抑制噪声与色偏异常值。第一阶段为局部方差滤波,移除对数 RGB 空间中像素内方差较低的像素,这些像素通常代表传感器噪声。第二阶段为颜色偏差滤波,剔除与场景主导色偏距离过远的像素,色偏由图像的平均对数强度定义。该优化过程生成显著灰像素(SGPs)。为应对图像中信号质量的差异,引入灰像素置信度加权机制。该加权自适应,利用亮度分布的偏度选择指数参数 EEE,根据局部亮度调节置信权重。最终光照估计通过基于 Minkowski 范数的聚合计算得出,结合 SGPs 及其局部反射率差异的加权贡献。该算法的设计原则——可靠性增强、隐式噪声过滤与空间先验利用——已内嵌于其结构中,尤其体现在使用重叠局部窗口计算反射率差异。

如图所示,RL-AWB 框架将 SGP-LRD 算法作为其环境。智能体学习调优两个关键参数:灰像素候选选择阈值 N%N\%N% 与 Minkowski 范数指数 ppp。状态表示设计为丰富且场景感知,结合从对数色度(RGB-uvuvuv)直方图提取的光照相关特征与近期参数调整的历史记录。该状态由双分支 MLP 编码器处理,将特征融合为单一嵌入。策略网络(actor)输出连续动作以调整参数,随后被重新缩放至有效范围。评判网络(critic)采用双 Q 值头实现,评估动作质量。训练过程基于 Soft Actor-Critic(SAC)算法,优化一个最大化期望回报与策略熵的策略,促进探索与稳定性。奖励函数精心设计,用于衡量角误差的相对改进,同时对大动作步长施加惩罚,并对显著收敛给予奖励,确保智能体学习到有效且稳定的调整策略。

实验

  • 在 NCC 与 LEVI 数据集上的域内评估:在 5 次样本设置下,RL-AWB 在中位数与均值角误差上均取得最佳表现,优于统计方法(如 SGP-LRD)与深度学习基线(C⁴、C⁵、PCC),且经 RL 调优的 SGP-LRD 展现出更优的实例级适应能力。
  • 跨数据集泛化:RL-AWB 在 NCC 与 LEVI 数据集间迁移时显著降低性能退化,在恢复与再现角误差上均持续优于基于学习的方法,证明其对领域与传感器变化的鲁棒性。
  • 白天与室内泛化:在 Gehler-Shi 数据集上,尽管仅在低光照数据上训练,RL-AWB 仍达到最先进水平,相比 SGP-LRD 将中位数角误差降低 5.9%,最佳 25% 误差降低 9.8%,展现出强大的跨场景适应能力。
  • 消融实验确认:课程池中 M = 5 时取得最佳权衡,双分支架构通过更好保留调整历史提升性能,且 RL 调优在所有设置下均持续增强 SGP-LRD 表现。
  • 再现角误差结果验证:RL-AWB 不仅提升光照估计精度,还增强感知白平衡质量,在数据集内与跨数据集评估中均保持一致优势。

结果表明,RL-AWB 在 NCC 数据集上所有方法中取得最低的中位数与均值角误差,显著优于统计与深度学习基线。作者利用 RL-AWB 自适应调优 SGP-LRD 参数,实现更优的域内性能与相比固定参数方法更强的稳定性。

作者采用课程学习方法评估训练数据量对 RL-AWB 性能的影响,将训练池大小从 3 张增至 15 张图像。结果表明,5 张图像的池大小在 NCC 与 LEVI 数据集上均取得最佳权衡,中位数与均值角误差最低,表明在有限数据下达到最优性能。

作者采用双分支网络架构用于 RL-AWB,分别处理高维 WB-sRGB 直方图与低维调整历史,以保留关键控制信息。结果表明,双分支设计在 NCC 与 LEVI 数据集上均取得比单分支变体更低的中位数与最差 25% 角误差。

作者使用 NCC 与 LEVI 数据集评估光照估计性能,以角误差衡量,数值越低表示精度越高。结果表明,RL-AWB 在两个数据集上均取得最低的中位数与均值角误差,显著优于所有统计与基于学习的基线,尤其在少样本设置下表现突出。

结果表明,RL-AWB 在跨数据集评估中取得最低的中位数与最差 25% 角误差,在 NCC→LEVI 与 LEVI→NCC 两种设置下均显著优于所有基于学习的基线,证明其在不同传感器与场景分布间具备卓越的泛化能力。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供