HyperAIHyperAI

Command Palette

Search for a command to run...

任意深度蒸馏:蒸馏构建更强大的单目深度估计器

Xiankang He Dongyan Guo Hongji Li Ruibo Li Ying Cui Chi Zhang

摘要

近年来,零样本单目深度估计(Zero-Shot Monocular Depth Estimation, MDE)的进展通过采用归一化深度表示统一深度分布,并利用大规模无标签数据通过伪标签蒸馏(pseudo-label distillation)显著提升了模型的泛化能力。然而,现有方法依赖全局深度归一化,对所有深度值一视同仁,这容易放大伪标签中的噪声,从而降低蒸馏效果。本文针对伪标签蒸馏场景下深度归一化策略进行了系统性分析。研究发现,在当前主流的蒸馏范式(如共享上下文蒸馏,shared-context distillation)中,归一化并非始终必要;相反,省略归一化有助于缓解噪声监督带来的负面影响。此外,我们不仅关注深度信息的表示方式,更进一步提出跨上下文蒸馏(Cross-Context Distillation)方法,通过融合全局与局部深度线索,有效提升伪标签的质量。同时,我们引入一种辅助引导蒸馏策略,利用基于扩散模型的教师网络提供互补的深度先验,进一步增强监督信号的多样性与鲁棒性。在多个基准数据集上的大量实验表明,所提方法在定量与定性评估上均显著优于当前最先进方法。

一句话总结

浙江大学、西湖大学、兰州大学与南洋理工大学的作者提出了一种基于辅助模型引导监督的跨上下文蒸馏框架,通过融合全局与局部深度线索,并利用基于扩散模型的教师模型提供的互补先验,显著提升了零样本单目深度估计的伪标签质量与鲁棒性,超越了以往依赖全局深度归一化的现有方法。

主要贡献

  • 现有零样本单目深度估计方法依赖全局深度归一化(如尺度-平移不变表示)来统一不同数据集间的深度分布,但该方法会因将局部预测与全局统计耦合而放大伪标签中的噪声,降低蒸馏质量。
  • 本文提出跨上下文蒸馏(Cross-Context Distillation)框架,在伪标签生成过程中联合利用局部与全局深度线索,既提升了细粒度细节的保留能力,又维持了场景级的一致性,并引入基于扩散模型教师的辅助引导蒸馏策略,注入互补的深度先验。
  • 在标准基准上的大量实验表明,所提方法在定量指标(如RMSE、δ1)和定性深度细节方面均达到当前最优性能,有效缓解了噪声问题并增强了监督多样性。

引言

单目深度估计(MDE)能够从单张RGB图像中预测深度,对自动驾驶、机器人等场景至关重要,尤其在立体或多视角系统不适用的情况下。近期的零样本MDE方法通过伪标签蒸馏利用大规模无标签数据,采用尺度-平移不变(SSI)表示以统一不同数据集的深度分布。然而,SSI蒸馏中的全局归一化会无意中将不准确区域的噪声传播至整个深度图,损害局部细节与蒸馏质量。作者对深度归一化策略进行了系统性分析,发现省略全局归一化或采用局部归一化可提升鲁棒性。其核心贡献是提出跨上下文蒸馏框架,通过联合利用局部细粒度深度线索与全局上下文关系,生成更高质量的伪标签。此外,引入基于扩散模型教师的辅助引导蒸馏策略,注入互补深度先验,增强监督多样性。实验表明,该方法在真实场景图像上的定量指标与定性深度细节方面均显著优于现有最先进方法。

数据集

  • 数据集由从SA-1B中选取的20万张无标签图像构成,SA-1B是包含丰富室内外场景的高质量RGB图像大规模集合。SA-1B也用于DepthAnythingv2,其高保真图像支持生成精细伪标签,从而实现稳健的深度估计。

  • 训练子集来自SA-1B,用于在蒸馏框架中通过教师模型生成伪标签。评估时,模型在五个主流单目深度估计基准上进行测试:NYUv2(654张测试图像)、KITTI(697张测试图像)、ETH3D(454张测试图像)、ScanNet(1,000张测试图像)以及DIODE(完整测试集,注意物体边界附近存在深度伪影)。

  • 作者采用共享上下文蒸馏策略,教师与学生模型均处理通过随机裁剪提取的相同全局区域。裁剪保持1:1长宽比,尺寸范围从644像素至图像最短边,随后缩放至560×560。在全局-局部蒸馏中,全局裁剪被划分为重叠的560×560局部块供教师模型处理。在辅助引导蒸馏中,主教师与辅助教师按7:3比例通过概率采样选取。

  • 所有模型仅使用RGB输入进行训练,伪标签由最先进的教师模型生成。最佳学生模型在单张NVIDIA V100 GPU上训练20,000次迭代,批量大小为8,初始化自预训练的DAv2-Large权重。学习率按学生模型分别调优,DAv2的解码器学习率为5×10⁻⁵。总损失使用权重λ₁ = 0.5、λ₂ = 1.0、λ₃ = 2.0。预测结果在评估前与真实值进行尺度与偏移对齐,使用AbsRel与δ₁指标。

方法

作者提出一种新颖的蒸馏框架,利用无标签图像提升零样本单目深度估计性能。整体架构融合两种核心策略:跨上下文蒸馏与辅助引导蒸馏,旨在提升伪标签监督的质量与鲁棒性。该框架设计使学生模型既能学习局部细粒度细节,又能把握全局场景结构,同时受益于多样化的监督来源。

参见框架图 。跨上下文蒸馏策略包含两种互补方法。第一种为共享上下文蒸馏,教师与学生模型接收同一张图像的随机局部裁剪。该设置促使学生在局部尺度上直接对齐其预测与教师输出,从而学习细粒度细节。该组件的损失记为Lsc\mathcal{L}_{\mathrm{sc}}Lsc,计算方式为学生与教师在局部区域的归一化深度预测之间的平均绝对差。

第二种为局部-全局蒸馏,作用于不同输入上下文。在此设置中,教师模型处理多个局部裁剪区域以生成细粒度深度预测,而学生模型则从整张图像预测全局深度图。为实现知识迁移,损失Llg\mathcal{L}_{\mathrm{lg}}Llg仅在教师局部预测与学生全局深度图对应区域的重叠部分计算。这确保学生能将局部细节信息整合进整体深度估计中。总损失函数结合这些组件,并引入特征对齐与梯度保持等额外约束,以平衡不同监督源之间的关系。

作者还提出一种辅助引导蒸馏方案,进一步提升伪标签质量。该方法将主教师模型与一个辅助教师模型配对,后者为基于扩散的深度估计器。辅助模型通过生成先验提供互补监督,提供与主教师全局一致性不同的细粒度深度线索。概率采样机制决定每轮训练的监督来源是主教师还是辅助教师,促使学生适应多样化的监督风格,从而形成更具泛化能力的深度表示。

深度归一化是该框架的关键组件,用于调整教师生成的伪深度标签与学生预测的深度,以实现有效的损失计算。作者系统分析了多种归一化技术。全局归一化基于整个深度图的全局统计信息调整深度预测,通过中位数与平均绝对偏差进行归一化,确保尺度-平移不变性。混合归一化通过将深度范围划分为多个段落,融合全局与局部深度信息,实现全局一致性与局部适应性的平衡。局部归一化仅关注最细粒度的分组,强调细粒度深度细节的保留。作为基线,还考虑了无显式归一化的直接深度回归方法,即使用学生原始预测与教师伪标签之间的绝对差。

参见归一化策略图 。该图直观展示了各策略在归一化区域内如何处理像素。红色圆点代表区域内的任意像素,不同归一化区域分别展示于全局、混合与局部归一化中。图中还包括“无归一化”(No Norm.)情况,作为对比基线。作者对这些策略的分析揭示了归一化在蒸馏中的有效性,有助于确定其框架中的最优方案。

实验

  • 跨上下文蒸馏的消融研究验证了结合共享上下文与局部-全局蒸馏并采用混合归一化可显著提升深度估计精度,混合归一化在DIODE与ETH3D两个基准上均优于全局与局部归一化。
  • 在DIODE与ETH3D数据集上,所提混合归一化策略相比全局归一化表现更优,尤其在保留局部深度细节与全局结构一致性方面。
  • 跨架构蒸馏实验表明,该方法在多种架构(MiDaS与DepthAnythingv2)上均持续优于先前方法,验证了所提蒸馏框架的泛化性与有效性。
  • 使用基于扩散模型(GenPercept)的辅助引导蒸馏优于单教师蒸馏,其中基于选择的伪标签融合策略在ETH3D上取得最佳结果。
  • 在零样本基准(NYUv2、ScanNet、KITTI、DIODE、ETH3D)上的定量评估显示,该方法达到当前最优性能,DepthAnythingv2与MiDaS架构在AbsRel与δ₁指标上均有提升。
  • 在DIODE与ETH3D上,学生模型的精度与泛化能力超越其教师模型,证明该蒸馏框架在知识迁移与性能增强方面的有效性。
  • 数据规模扩展实验表明,所提方法始终优于SSI Loss基线,且随着训练数据量增加,性能差距扩大,表明其具有更优的数据效率。
  • 从生成模型(GenPercept)蒸馏可使学生模型在细粒度预测方面显著优于从编码器-解码器模型蒸馏。
  • 在多样化真实世界、合成与抽象输入(如动漫、素描、游戏渲染)上的定性结果表明,该方法具备鲁棒的深度估计能力,具有高结构保真度与语义一致性,支持在非受限环境中的有效三维重建。

作者采用蒸馏框架在DIODE与ETH3D基准上对比不同教师-学生模型对的性能,评估所提训练损失的影响。结果表明,其方法在所有配置下均持续降低绝对相对误差(AbsRel),尤其在ETH3D上提升最为显著,表明深度估计精度与鲁棒性得到增强。

结果表明,混合归一化在共享上下文与局部-全局蒸馏中均表现最佳,在ETH3D与DIODE上均取得最低AbsRel。在共享上下文蒸馏中,无归一化也表现良好,表明一致的监督可减少对归一化的依赖;而在局部-全局蒸馏中,混合归一化最为有效,因其能平衡局部与全局深度一致性。

结果表明,结合共享上下文与局部-全局蒸馏在ETH3D与DIODE基准上均显著提升深度估计精度,当两个组件均启用时性能最佳,分别使AbsRel降低25.3%与14.1%。

结果表明,所提方法在多个基准上达到当前最优性能,多数情况下优于现有仿射不变深度估计器。该模型在DepthAnything v2与MiDaS架构上均持续优于基线,展现出在零样本深度估计任务中更优的精度与泛化能力。

结果表明,辅助引导蒸馏策略显著提升深度估计精度,“Select.”方法在ETH3D与DIODE基准上均取得最低AbsRel。DepthAnything v2与Genpercept的组合优于单一模型,证明从互补教师中选择监督信号的有效性。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
任意深度蒸馏:蒸馏构建更强大的单目深度估计器 | 论文 | HyperAI超神经