
摘要
在本工作中,我们提出了一种名为FFB6D的全流双向融合网络,用于从单张RGBD图像中实现6D姿态估计。我们的核心洞察是:RGB图像中的外观信息与深度图像中的几何信息是两种互补的数据源,但如何充分融合利用二者仍是一个未解问题。为此,我们提出了FFB6D,该方法在表示学习阶段与输出表示选择阶段均实现了外观与几何信息的有效融合。具体而言,在表示学习阶段,我们在两个网络的完整流程中构建了双向融合模块,融合操作贯穿于每一层编码与解码过程。通过这种方式,两个网络能够相互利用对方的局部与全局互补信息,从而获得更优的特征表示。此外,在输出表示阶段,我们设计了一种简单而高效的关键点选择算法,综合考虑了物体的纹理与几何特性,显著简化了关键点定位过程,从而提升了姿态估计的精度。实验结果表明,我们的方法在多个基准测试上均显著优于当前最先进的技术。代码与演示视频已开源,详见 \url{https://github.com/ethnhe/FFB6D.git}。