
摘要
多视图立体(MVS)在已知相机参数的情况下,本质上是一个在有效深度范围内的一维搜索问题。近年来,基于深度学习的MVS方法通常在深度范围内密集采样深度假设,然后构建占用大量内存的三维代价体用于深度预测。尽管粗到精的采样策略在一定程度上缓解了这一开销问题,但MVS的效率仍然是一个未解决的挑战。在这项工作中,我们提出了一种高效MVS的新方法,该方法显著减少了内存占用,同时明显提升了最先进的深度预测性能。我们研究了一种合理的最优搜索策略,以兼顾MVS的效率和效果。首先,我们将MVS表述为一个二分搜索问题,并相应地提出了一种广义二分搜索网络(GBi-Net)用于MVS。具体而言,在每一步中,深度范围被分成两个区间,并且在两侧各增加一个误差容忍区间。通过分类来确定哪个区间包含真实的深度值。此外,我们设计了三种机制分别处理分类错误、处理超出范围的样本和减少训练内存。新的表述方式使得我们的方法在每一步中只需采样少量的深度假设,这极大地提高了内存效率,并且显著促进了快速训练收敛。在具有竞争力的基准测试中的实验表明,我们的方法在使用较少内存的情况下达到了最先进的精度。特别是在DTU数据集上,我们的方法获得了总体评分为0.289的成绩,并且在所有基于学习的方法中,在具有挑战性的Tanks and Temples高级数据集中排名第一。训练模型和代码将在https://github.com/MiZhenxing/GBi-Net发布。