6 个月前

摘要

尽管近期仅依赖摄像头的3D检测方法利用了多时间步信息，但其使用的有限历史序列严重限制了时序融合在提升目标感知能力方面的潜力。我们观察到，现有方法对多帧图像的融合本质上属于时序立体匹配（temporal stereo matching），而其性能受限于两个关键因素的相互作用：1）匹配分辨率的粒度较低；2）受限于历史信息的使用，导致多视角布局次优。通过理论分析与实验验证，我们发现不同像素点和深度下的最优时序差异存在显著差异，因此有必要在长时历史范围内融合大量时间步的信息。基于此发现，我们提出从长时间序列的图像观测中构建代价体（cost volume），以更优的多视角匹配布局来弥补粗粒度但高效的匹配分辨率的不足。此外，我们在用于长时粗粒度匹配的单目深度预测基础上，引入短时精细匹配机制，结果表明长时与短时的时序融合具有高度互补性。在保持高效率的同时，我们的方法在nuScenes数据集上取得了新的最先进性能，在测试集上获得第一名，并在验证集上相比此前最佳方法分别提升了5.2%的mAP和3.7%的NDS。代码将发布于：https://github.com/Divadi/SOLOFusion。

源 PDF