
摘要
本文研究了从同步的二维(2D)与三维(3D)数据中联合估计光流(optical flow)与场景流(scene flow)的问题。以往的方法通常采用复杂的流水线结构,将联合任务分解为独立的阶段,或以“早期融合”(early-fusion)或“晚期融合”(late-fusion)的方式融合2D与3D信息。这类“一刀切”的方法面临两难困境:既难以充分挖掘各模态的特性,又无法最大化模态间的互补性。为解决该问题,我们提出一种新颖的端到端框架,其包含2D与3D两个分支,并在特定层之间引入多组双向融合连接。与以往工作不同,我们采用基于点云的3D分支来提取LiDAR特征,以更好地保留点云的几何结构。为融合密集的图像特征与稀疏的点云特征,我们提出一种可学习的算子——双向相机-LiDAR融合模块(Bidirectional Camera-LiDAR Fusion Module, Bi-CLFM)。我们进一步构建了两种双向融合架构:一种基于金字塔式粗到精结构(命名为CamLiPWC),另一种基于递归全对场变换(命名为CamLiRAFT)。在FlyingThings3D数据集上,CamLiPWC与CamLiRAFT均超越了所有现有方法,相较最优已发表结果,3D端点误差(end-point-error)最高降低了47.9%。其中性能最佳的模型CamLiRAFT在KITTI场景流基准测试中取得4.26%的误差率,位居所有提交结果第一,且参数量显著更少。此外,我们的方法展现出优异的泛化能力,并能有效处理非刚性运动。代码已开源,地址为:https://github.com/MCG-NJU/CamLiFlow。