
摘要
我们研究的是场景光流(scene flow)问题:给定一对立体视觉或RGB-D视频帧,估计每个像素的三维运动。为此,我们提出了RAFT-3D,一种全新的深度神经网络架构,用于场景光流估计。RAFT-3D基于为光流设计的RAFT模型,但其核心机制并非迭代更新二维运动场,而是迭代优化稠密的像素级SE3运动场(即三维刚体运动)。RAFT-3D的一项关键创新是刚体运动嵌入(rigid-motion embeddings),该机制通过软聚类方式将像素分组为刚体物体。刚体运动嵌入的核心是Dense-SE3,一种可微分层,用于强制嵌入结果在几何上保持一致性。实验结果表明,RAFT-3D在多个基准数据集上均达到当前最优性能。在FlyingThings3D数据集上,采用双视图评估设置,我们将最佳已发表结果(误差小于0.05)从34.3%提升至83.7%。在KITTI数据集上,尽管未使用物体实例级监督信息,我们仍取得了5.77的误差,优于此前最优方法(6.31)。代码已开源,地址为:https://github.com/princeton-vl/RAFT-3D。