
迁移学习在计算机视觉(CV)和自然语言处理(NLP)中被广泛应用,并取得了巨大成功。大多数迁移学习系统基于同一模态(例如,CV中的RGB图像和NLP中的文本)。然而,跨模态迁移学习(CMTL)系统相对较少。在这项工作中,我们研究了从2D到3D传感器的CMTL,以探索仅使用3D传感器系统的性能上限,这些系统在机器人导航中发挥着关键作用,并且在低光照条件下表现良好。尽管大多数从2D到3D视觉的CMTL流程复杂且基于卷积神经网络(ConvNets),我们的方法则易于实现、扩展,并结合了ConvNets和视觉变换器(ViTs):1) 通过将点云转换为伪图像,我们可以使用几乎相同的网络结构来利用基于2D图像的预训练模型。这使得我们的系统易于实现和扩展。2) 最近,ViTs在处理遮挡方面表现出良好的性能和鲁棒性,这是导致3D视觉系统性能较差的关键原因之一。我们探索了具有相似模型规模的ViT和ConvNet之间的性能差异。我们将这种方法命名为simCrossTrans:一种基于ConvNets或ViTs的简单跨模态迁移学习方法。实验结果表明,在SUN RGB-D数据集上,使用simCrossTrans分别基于ConvNets和ViTs实现了13.2%和16.1%的绝对性能提升。我们还观察到基于ViTs的方法比基于ConvNets的方法高出9.7%,展示了simCrossTrans与ViT结合的强大能力。simCrossTrans与ViTs相结合,在mAP50指标上超越了之前的最先进方法(SOTA),提升了15.4%。与之前基于RGB图像的2D检测最先进方法相比,我们的深度图像系统仅存在1%的差距。代码、训练/推理日志和模型已公开发布于 https://github.com/liketheflower/simCrossTrans。