2 个月前

基于视觉Transformer的多模态统一目标检测器

Shen, Xiaoke ; Stamos, Ioannis
基于视觉Transformer的多模态统一目标检测器
摘要

传统系统通常需要不同的模型来处理不同的模态,例如一个模型用于处理RGB图像,另一个模型用于处理深度图像。最近的研究表明,可以通过跨模态迁移学习将一种模态的单个模型适应到另一种模态。在本文中,我们通过结合跨/多模态迁移学习与视觉变换器(Vision Transformer),开发了一种统一检测器,该检测器在多种模态下均表现出优异的性能。我们的研究设想了机器人应用中的一个场景,其中统一系统能够在不同光照条件下无缝切换RGB相机和深度传感器。重要的是,该系统无需更新模型架构或权重即可实现这种平滑过渡。具体而言,在低光照条件(夜间)下,系统使用深度传感器;而在光线充足的环境中,则同时使用RGB相机和深度传感器或仅使用RGB相机。我们在SUN RGB-D数据集上评估了我们的统一模型,并证明其在SUNRGBD16类别中的mAP50指标上达到了与现有最先进方法相当或更好的性能,在仅使用点云模式时也表现出可比的性能。此外,我们还引入了一种新颖的多模态混合方法,使我们的模型显著优于以往的方法。为了促进可重复性和进一步研究,我们提供了代码,包括训练/推理日志和模型检查点。\url{https://github.com/liketheflower/UODDM}

基于视觉Transformer的多模态统一目标检测器 | 最新论文 | HyperAI超神经