6 个月前

摘要

从立体图像对中进行深度估计已成为计算机视觉领域研究最为广泛的课题之一，以往大多数方法均依赖于完全监督学习框架。然而，由于获取准确且可扩展的真值数据存在困难，完全监督方法的训练面临较大挑战。为此，自监督学习方法逐渐成为一种更具吸引力的替代方案。本文提出一种名为H-Net的深度学习框架，用于无监督立体深度估计，该框架利用对极几何来优化立体匹配过程。首次将孪生自编码器（Siamese autoencoder）架构应用于深度估计任务，从而能够有效提取校正后立体图像之间的互信息。为强制满足对极约束，本文设计了互对极注意力机制（mutual epipolar attention），在学习输入立体图像对之间互信息的同时，加强对位于同一条对极线上特征对应关系的关注。此外，通过将语义信息融入所提出的注意力机制，进一步提升了立体匹配的精度。具体而言，采用最优传输（optimal transport）算法抑制不相关区域的注意力响应，有效剔除在双目视角中均不可见区域的异常点。在KITTI2015和Cityscapes数据集上的大量实验表明，所提方法在无监督立体深度估计领域显著优于现有最先进方法，并在性能上逐步逼近完全监督学习方法的水平。

源 PDF