2달 전

CMX: 트랜스포머를 활용한 RGB-X 의미 분할을 위한 크로스 모달 융합

Zhang, Jiaming ; Liu, Huayao ; Yang, Kailun ; Hu, Xinxin ; Liu, Ruiping ; Stiefelhagen, Rainer
CMX: 트랜스포머를 활용한 RGB-X 의미 분할을 위한 크로스 모달 융합
초록

이미지 분할을 기반으로 한 장면 이해는 자율 주행 차량의 핵심 구성 요소입니다. RGB 이미지의 픽셀 단위 의미 분할은 보조 모달리티(X-모달리티)에서 얻은 보완적 특징을 활용함으로써 발전될 수 있습니다. 그러나 다양한 센서를 모달리티에 상관없이 처리하는 모델을 개발하는 문제는 각기 다른 모달리티 간 센서 특성의 차이로 인해 아직 해결되지 않았습니다. 이전의 모달리티별 방법과 달리, 본 연구에서는 RGB-X 의미 분할을 위한 통합 융합 프레임워크인 CMX를 제안합니다. 다양한 모달리티, 특히 불확실성이 포함된 보조 정보를 잘 일반화하기 위해서는 통합된 크로스-모달 상호작용이 모달리티 융합에 필수적입니다. 구체적으로, 우리는 한 모달리티의 특징을 이용하여 다른 모달리티의 특징을 교정하는 Cross-Modal Feature Rectification Module(CM-FRM)을 설계하였습니다. 교정된 특징 쌍을 사용하여, 우리는 Feature Fusion Module(FFM)을 배치하여 장거리 문맥의 충분한 교환 후 혼합 작업을 수행합니다. CMX의 검증을 위해 처음으로, RGB와 보완적인 다섯 가지 모달리티, 즉 깊이(depth), 열(thermal), 편광(polarization), 이벤트(event), 그리고 LiDAR를 통일하였습니다. 광범위한 실험 결과, CMX는 다양한 다중 모달 융합에 잘 일반화되어 다섯 개의 RGB-깊이 벤치마크 뿐만 아니라 RGB-열, RGB-편광, 그리고 RGB-LiDAR 데이터셋에서 최고 수준의 성능을 달성하였습니다. 또한 밀도-희소 데이터 융합에 대한 일반화 능력을 조사하기 위해, EventScape 데이터셋 기반의 RGB-이벤트 의미 분할 벤치마크를 설정하였으며, 이 벤치마크에서 CMX는 새로운 최고 수준 성능을 기록하였습니다. CMX의 소스 코드는 https://github.com/huaaaliu/RGBX_Semantic_Segmentation에서 공개적으로 이용 가능합니다.

CMX: 트랜스포머를 활용한 RGB-X 의미 분할을 위한 크로스 모달 융합 | 최신 연구 논문 | HyperAI초신경