16 天前
OmniFusion:通过几何感知融合实现360度单目深度估计
Yuyan Li, Yuliang Guo, Zhixin Yan, Xinyu Huang, Ye Duan, Liu Ren

摘要
将深度学习方法应用于全景图像时面临的一个公认挑战是球面畸变问题。在深度估计等密集回归任务中,由于需要保留丰富的结构细节,直接在畸变的360°图像上使用标准卷积神经网络(CNN)层会导致不可忽视的信息损失。本文提出了一种名为OmniFusion的360°单目深度估计框架,旨在有效缓解球面畸变带来的影响。该框架首先将360°图像转换为畸变较小的透视视图块(即切片图像,tangent images),利用CNN对每个视图块进行独立预测,随后融合各块的预测结果以生成最终输出。为解决视图块间预测结果不一致这一严重影响融合质量的核心问题,我们提出了一种新型框架,包含以下三个关键组件:第一,设计了一种几何感知的特征融合机制,通过结合三维几何特征与二维图像特征,有效补偿视图块间的差异;第二,引入基于自注意力机制的Transformer架构,实现对各视图块信息的全局聚合,进一步提升预测结果的一致性;第三,提出一种迭代深度精炼机制,基于更精确的几何特征对初步估计的深度图进行多次优化,以获得更高精度的深度结果。实验结果表明,所提方法显著缓解了球面畸变问题,在多个360°单目深度估计基准数据集上均取得了当前最优的性能表现。