
摘要
从球面全景图中学习深度信息正逐渐成为一项热门研究课题,因为全景图能够提供环境的完整视场(full field-of-view),并相对完整地描述场景。然而,将针对透视图像广泛研究的卷积神经网络(CNN)直接应用于球面全景图的标准表示形式——等距柱状投影(equirectangular projection)时,效果并不理想,因为该投影在两极附近会产生显著的几何畸变。另一种替代方案是立方体图投影(cubemap projection),其无畸变,但在边缘处存在不连续性,且视场范围受限。本文提出了一种新的融合框架,旨在结合两种投影的优势:仅在解码阶段单向地将立方体图特征馈入等距柱状投影特征。与近期在编码和解码阶段均进行双向融合的方法相比,我们的融合策略具有更高的计算效率。此外,我们还设计了一种更为有效的融合模块以适配该单向融合机制。实验结果验证了所提出融合策略与模块的有效性,所提模型在四个主流数据集上均取得了当前最优的性能表现。进一步的实验表明,该模型在模型复杂度和泛化能力方面也具备显著优势。代码已开源,地址为:https://github.com/alibaba/UniFuse-Unidirectional-Fusion。