
전통적인 시스템은 일반적으로 다른 모달리티를 처리하기 위해 서로 다른 모델을 필요로 하며, 예를 들어 RGB 이미지용 하나의 모델과 깊이 이미지용 또 다른 모델이 필요합니다. 최근 연구에서는 한 가지 모달리티에 대한 단일 모델이 크로스-모달리티 전이 학습을 통해 다른 모달리티에 적응될 수 있음을 입증하였습니다. 본 논문에서는 이러한 접근 방식을 확장하여 크로스/인터-모달리티 전이 학습과 비전 트랜스포머를 결합하여 다양한 모달리티에서 우수한 성능을 발휘하는 통합 감지기를 개발하였습니다. 우리의 연구는 로봇공학 분야에서의 응용 시나리오를 상상하며, 이 통합 시스템은 다양한 조명 조건에서 RGB 카메라와 깊이 센서 사이를 원활하게 전환할 수 있습니다. 특히, 이 시스템은 이러한 원활한 전환을 위해 별도의 모델 아키텍처 또는 가중치 업데이트가 필요하지 않습니다. 구체적으로, 시스템은 저조도 환경(야간)에서는 깊이 센서만 사용하고, 충분히 밝은 환경에서는 RGB 카메라와 깊이 센서 또는 RGB 카메라만 사용합니다. 우리는 SUN RGB-D 데이터셋에서 우리의 통합 모델을 평가하였으며, SUNRGBD16 범주에서 최신 방법론보다 유사하거나 더 나은 mAP50 성능을 보여주었음을 입증하였습니다. 또한 포인트 클라우드만 사용하는 모드에서도 유사한 성능을 나타냈습니다. 우리는 또한 새로운 인터-모달리티 혼합 방법을 소개하여, 이 방법으로 인해 우리의 모델이 이전 방법론보다 훨씬 더 좋은 결과를 얻을 수 있었습니다. 재현성과 추가 연구를 돕기 위해, 우리는 훈련/추론 로그 및 모델 체크포인트를 포함한 코드를 제공합니다.\url{https://github.com/liketheflower/UODDM}