
摘要
我们发布了用于单目深度估计的MiDaS v3.1版本,该版本基于多种不同的编码器骨干网络,提供了多种新型模型。此次发布源于视觉变换器(Vision Transformers)在计算机视觉领域取得的成功,目前已有大量预训练的视觉变换器模型可供使用。我们系统地研究了将最具潜力的视觉变换器作为图像编码器应用于MiDaS架构时,对深度估计性能与运行效率的影响。同时,我们也评估了近年来在图像分类任务中表现可与视觉变换器相媲美的先进卷积神经网络方法。与此前仅采用原始视觉变换器(ViT)的MiDaS v3.0不同,MiDaS v3.1新增了基于BEiT、Swin、SwinV2、Next-ViT和LeViT的多种模型,这些模型在性能与推理速度之间提供了多样化的权衡选择。其中性能最优的模型使深度估计精度提升了28%,而高效模型则适用于对帧率要求较高的下游应用任务。此外,本文还详细介绍了集成新型骨干网络的通用流程。相关工作视频摘要可访问:https://youtu.be/UjaeNNFf9sE,代码已开源,地址为:https://github.com/isl-org/MiDaS。