16 天前

迈向更优的泛化能力:无需 PoseNet 的联合深度-位姿学习

Wang Zhao, Shaohui Liu, Yezhi Shu, Yong-Jin Liu
迈向更优的泛化能力:无需 PoseNet 的联合深度-位姿学习
摘要

在本工作中,我们针对自监督联合深度-位姿学习中的尺度不一致性这一核心问题提出了有效解决方案。现有大多数方法均假设深度与位姿的尺度能够在所有输入样本间保持一致,这一假设使得学习过程更加困难,导致在室内场景及长序列视觉里程计应用中性能下降、泛化能力受限。为解决该问题,我们提出一种新型系统,其核心思想是显式地将尺度从网络估计中解耦出来。不同于依赖PoseNet架构的方法,我们的方法通过直接从密集光流对应关系中求解基础矩阵来恢复相对位姿,并利用两视图三角化模块重建一个比例尺度下的三维结构。随后,我们将深度预测结果的尺度与三角化得到的点云对齐,并使用经过尺度变换后的深度图进行深度误差计算与稠密重投影一致性检验。整个系统可实现端到端的联合训练。大量实验表明,我们的方法不仅在KITTI深度与光流估计任务上达到了当前最优性能,显著提升了现有自监督深度-位姿学习方法在多种复杂场景下的泛化能力,而且在KITTI视觉里程计与NYUv2数据集上,也取得了基于自监督学习方法的最先进结果。此外,我们还揭示了基于PoseNet的相对位姿估计方法在泛化能力方面存在的若干局限性。代码已开源,地址为:https://github.com/B1ueber2y/TrianFlow。

迈向更优的泛化能力:无需 PoseNet 的联合深度-位姿学习 | 最新论文 | HyperAI超神经