2 个月前
多模态融合用于端到端RGB-T跟踪
Lichao Zhang; Martin Danelljan; Abel Gonzalez-Garcia; Joost van de Weijer; Fahad Shahbaz Khan

摘要
我们提出了一种端到端的RGB-T跟踪框架,用于融合RGB(可见光)和TIR(热红外)模态。我们的基线跟踪器是DiMP(判别模型预测),该跟踪器采用了一个精心设计的目标预测网络,通过判别损失函数进行端到端训练。我们分析了在DiMP的主要组件中模态融合的有效性,这些组件包括特征提取器、目标估计网络和分类器。我们考虑了几种不同层次的融合机制,包括像素级、特征级和响应级融合。我们的跟踪器以端到端的方式进行训练,使各组件能够学习如何从两种模态中融合信息。为了训练我们的模型,我们生成了一个大规模的RGB-T数据集,该数据集基于一个带有注释的RGB跟踪数据集(GOT-10k),并通过图像到图像的翻译方法合成了配对的TIR图像。我们在VOT-RGBT2019数据集和RGBT210数据集上进行了广泛的实验,评估了每种模态融合机制在每个模型组件上的表现。结果表明,所提出的融合机制提高了单一模态对应方法的性能。当在IoU-Net和模型预测器上进行特征级融合时,我们在VOT-RGBT2019数据集上获得了0.391的EAO分数。通过这种融合机制,我们在RGBT210数据集上达到了最先进的性能。