
摘要
从单张图像准确估计深度是一项具有挑战性的任务,因为该问题本质上具有歧义性且属于病态问题。尽管近期研究致力于设计日益复杂且强大的网络以直接回归深度图,我们则选择采用条件随机场(CRFs)优化的路径。由于计算成本较高,传统的CRFs通常仅在局部邻域内进行,而非在整个图上执行。为充分发挥全连接CRFs(FC-CRFs)的潜力,我们采用分窗策略:将输入图像划分为多个窗口,在每个窗口内独立执行FC-CRF优化,从而显著降低计算复杂度,使全连接CRFs在实际应用中成为可行方案。为进一步捕捉图中节点之间的复杂关系,我们引入多头注意力机制,构建多头势函数(multi-head potential function),并将该函数作为输入馈入神经网络,以输出优化后的深度图。在此基础上,我们设计了一个自下而上、自上而下的网络结构:其中,神经网络化的窗口化FC-CRF模块作为解码器,而视觉Transformer(Vision Transformer)则作为编码器。实验结果表明,与以往方法相比,我们的方法在KITTI和NYUv2两个数据集上的各项指标上均实现了显著性能提升。此外,所提出的方法可直接应用于全景图像,并在MatterPort3D数据集上超越了所有现有的全景深度估计方法。项目主页:https://weihaosky.github.io/newcrfs。