2 个月前
统一光流、立体视觉和深度估计
Haofei Xu; Jing Zhang; Jianfei Cai; Hamid Rezatofighi; Fisher Yu; Dacheng Tao; Andreas Geiger

摘要
我们提出了一种统一的公式和模型,用于解决三个运动和3D感知任务:光流、校正立体匹配以及非校正立体图像的深度估计。与以往针对每个特定任务的专门架构不同,我们将所有这三个任务表述为一个统一的密集对应匹配问题,可以通过直接比较特征相似性来解决。这种表述需要具有判别性的特征表示,我们通过使用Transformer(特别是交叉注意力机制)来实现这一点。我们展示了交叉注意力机制能够通过跨视图交互整合另一幅图像的知识,从而显著提高提取特征的质量。我们的统一模型自然支持跨任务迁移学习,因为模型架构和参数在各个任务之间是共享的。在具有挑战性的Sintel数据集上,我们的统一模型优于RAFT;而最终模型通过添加一些额外的任务特定优化步骤,在10个流行的光流、立体匹配和深度估计数据集上的表现优于或可与最近的先进方法相媲美,同时在模型设计和推理速度方面更为简洁高效。