11 天前

se(3)-TrackNet:通过在合成域中校准图像残差实现数据驱动的6D位姿跟踪

Bowen Wen, Chaitanya Mitash, Baozhang Ren, Kostas E. Bekris
se(3)-TrackNet:通过在合成域中校准图像残差实现数据驱动的6D位姿跟踪
摘要

在视频序列中追踪物体的6D位姿对于机器人操作至关重要。然而,该任务面临诸多挑战:(i)机器人操作过程中存在显著的遮挡;(ii)6D位姿的数据与标注获取困难且耗时,给机器学习方法的实现带来困难;(iii)长期追踪中常出现累积误差漂移,导致必须频繁重新初始化物体位姿。为此,本文提出一种基于数据驱动的优化方法,用于实现长期、高精度的6D位姿追踪。该方法在给定当前RGB-D观测结果,并结合基于前一最优估计与物体模型生成的合成图像条件下,自动推断出物体的最优相对位姿。本文的核心贡献在于提出了一种新颖的神经网络架构,能够有效解耦特征编码,从而缓解域偏移问题;同时引入基于李代数(Lie Algebra)的高效三维姿态表示方法。得益于这一设计,即使模型仅在合成数据上进行训练,也能在真实图像上实现高效且稳定的性能表现。在多个基准数据集上的广泛实验——包括现有数据集以及一个包含显著遮挡、与物体操作密切相关的新型数据集——表明,所提方法在估计鲁棒性方面显著优于现有方法,即便后者使用真实数据进行训练。此外,该方法在所有对比方法中计算效率最高,实现了高达90.9Hz的追踪频率。

se(3)-TrackNet:通过在合成域中校准图像残差实现数据驱动的6D位姿跟踪 | 最新论文 | HyperAI超神经