
摘要
近期的级联多视图立体(Multi-View Stereo, MVS)方法通过缩小假设范围,能够高效地估计高分辨率深度图。然而,以往的方法忽略了粗略阶段中蕴含的关键几何信息,导致代价匹配过程脆弱,重建结果次优。本文提出一种几何感知模型——GeoMVSNet,旨在显式融合粗略阶段所隐含的几何线索,以实现更精细的深度估计。具体而言,我们设计了一种双分支几何融合网络,从粗略估计中提取几何先验,以增强后续精细阶段的结构特征提取能力。此外,我们将编码了重要深度分布特性的粗略概率体嵌入轻量级正则化网络中,进一步强化沿深度方向的几何直觉。同时,我们引入频域滤波机制,以缓解高频区域带来的负面影响,并采用课程学习(curriculum learning)策略,逐步提升模型对几何信息的整合能力。为增强模型对全场景几何结构的感知能力,我们基于高斯混合模型(Gaussian-Mixture Model)假设,提出了深度分布相似性损失函数。在DTU和Tanks and Temples(T&T)数据集上的大量实验表明,所提出的GeoMVSNet取得了当前最优的性能,并在T&T-Advanced测试集上排名第一。代码已开源,地址为:https://github.com/doubleZ0108/GeoMVSNet。