simCrossTrans: 단순한 모달리티 간 전이 학습을 이용한 객체 검출 방법 (ConvNets 또는 Vision Transformers 사용)

전이 학습은 컴퓨터 비전(CV)과 자연어 처리(NLP)에서 널리 사용되며 큰 성공을 거두고 있습니다. 대부분의 전이 학습 시스템은 동일한 모달리티(예: CV의 RGB 이미지와 NLP의 텍스트)를 기반으로 합니다. 그러나, 크로스-모달리티 전이 학습(CMTL) 시스템은 드물습니다. 본 연구에서는 2D에서 3D 센서로의 CMTL을 연구하여 3D 센서만을 사용하는 시스템의 최상위 성능을 탐색합니다. 이러한 3D 센서 시스템은 로봇 내비게이션에 중요한 역할을 하며, 저조도 환경에서 우수한 성능을 보입니다.대부분의 2D에서 3D 비전으로의 CMTL 파이프라인은 복잡하며 컨볼루셔널 신경망(ConvNets)을 기반으로 하지만, 우리의 접근 방식은 구현 및 확장이 쉽고 ConvNets와 비전 트랜스포머(ViTs)를 모두 활용합니다: 1) 포인트 클라우드를疑似图像转换,我们就可以使用基于2D图像的预训练模型几乎相同的网络。这使得我们的系统易于实现和扩展。2)最近,ViTs在处理遮挡方面表现出良好的性能和鲁棒性,这是导致3D视觉系统性能不佳的关键原因之一。我们探索了具有相似模型大小的ViT和ConvNet之间的性能差异。我们将这种方法命名为simCrossTrans:一种简单且基于ConvNets或ViTs的跨模态迁移学习方法。在SUN RGB-D数据集上的实验表明:通过simCrossTrans,我们分别基于ConvNets和ViTs实现了13.2%和16.1%的绝对性能提升。我们还观察到基于ViTs的方法比基于ConvNets的方法高出9.7%,这显示了simCrossTrans与ViT结合的强大能力。使用ViTs的simCrossTrans在mAP50指标上大幅超越了之前的最先进(SOTA)水平(+15.4%)。与之前基于RGB图像的2D检测SOTA相比,我们的深度图像系统仅相差1%。代码、训练/推理日志及模型已在https://github.com/liketheflower/simCrossTrans 공개되었습니다.修正后的翻译:포인트 클라우드를 의사 이미지(pseudo-images)로 변환하면, 2D 이미지를 기반으로 한 사전 훈련 모델과 거의 동일한 네트워크를 사용할 수 있습니다. 이는 우리 시스템의 구현과 확장을 용이하게 만듭니다. 또한 최근 ViTs는 가림 현상(occlusions)에 대한 좋은 성능과 강건성을 보여주고 있으며, 이는 3D 비전 시스템의 성능 저하를 초래하는 주요 원인 중 하나입니다. 우리는 유사한 모델 크기를 가진 ViT와 ConvNet 간의 성능 차이를 조사하였습니다.우리는 이 접근 방식을 simCrossTrans라고 명명하였습니다: ConvNets 또는 ViTs를 기반으로 하는 단순한 크로스-모달리티 전이 학습 방법입니다. SUN RGB-D 데이터셋에서 수행된 실험 결과, simCrossTrans는 각각 ConvNets와 ViTs를 기반으로 하여 13.2%와 16.1%의 절대적인 성능 향상을 달성하였습니다. 또한 ViTs 기반 방법이 ConvNets 기반 방법보다 9.7% 더 우수함을 확인하였으며, 이는 ViT와 결합된 simCrossTrans의 강력함을 입증합니다. ViTs를 사용한 simCrossTrans는 mAP50 지표에서 이전 최신(SOTA) 수준보다 크게 (+15.4%) 개선되었습니다. 이전 RGB 이미지를 기반으로 한 2D 검출 SOTA와 비교할 때, 우리의 깊이 이미지만 사용하는 시스템은 단지 1% 차이만 보였습니다.코드, 훈련/추론 로그 및 모델은 https://github.com/liketheflower/simCrossTrans 에서 공개되어 있습니다.