2 个月前

使用视觉基础模型和交叉注意力机制的鲁棒场景变化检测

Chun-Jung Lin; Sourav Garg; Tat-Jun Chin; Feras Dayoub
使用视觉基础模型和交叉注意力机制的鲁棒场景变化检测
摘要

我们提出了一种新颖的场景变化检测方法,该方法利用了视觉基础模型DINOv2的强大特征提取能力,并集成了全图像交叉注意力机制,以应对光照变化、季节变化和视角差异等关键挑战。为了有效学习图像对之间的对应关系和非对应关系,我们建议:a) “冻结”骨干网络,以保留密集基础特征的通用性;b) 使用“全图像”交叉注意力机制,更好地解决图像对之间的视角差异问题。我们在两个基准数据集VL-CMU-CD和PSCD及其视角变化版本上评估了我们的方法。实验结果表明,在涉及图像对之间几何变化的场景中,F1分数有显著提升。这些结果表明,与现有的最先进方法相比,我们的方法具有更强的泛化能力,表现出对光度学和几何变化的鲁棒性以及在微调以适应新环境时更好的整体泛化性能。详细的消融研究进一步验证了我们架构中每个组件的贡献。我们的源代码可在以下地址获取:https://github.com/ChadLin9596/Robust-Scene-Change-Detection。

使用视觉基础模型和交叉注意力机制的鲁棒场景变化检测 | 最新论文 | HyperAI超神经