16 天前

M-FUSE:用于场景流估计的多帧融合

Lukas Mehl, Azin Jahedi, Jenny Schmalfuss, Andrés Bruhn
M-FUSE:用于场景流估计的多帧融合
摘要

近期,基于神经网络的场景光流估计方法在自动驾驶数据集(如KITTI基准)上取得了令人瞩目的成果。然而,尽管这些方法采用了复杂的刚性假设与参数化策略,其通常仅限于处理两帧图像对,难以有效利用时间序列信息。针对这一局限,本文提出了一种新颖的多帧方法,通过引入一个额外的前序立体图像对,从而实现对时间信息的充分挖掘。为此,我们采用两步策略:首先,在近期提出的RAFT-3D方法基础上,通过融合先进的立体匹配技术,构建了一种性能更优的两帧基准模型;其次,更为关键的是,我们充分利用RAFT-3D的独特建模思想,设计了一种U-Net架构,能够对前向与后向光流估计结果进行融合,从而实现按需整合时间上下文信息的能力。在KITTI基准上的实验结果表明,改进后的基准模型与时间融合方法的优势相互补充,不仅显著提升了场景光流的估计精度,而且整体性能相较原始RAFT-3D方法提升了超过16%。具体而言,我们的方法在所有类别中排名第二,在更具挑战性的前景物体类别中更是位列第一。相关代码已开源,地址为:https://github.com/cv-stuttgart/M-FUSE。