임의 모달 의미 분할 제공

다중 모드 융합은 의미 분할을 더욱 견고하게 만들 수 있습니다. 그러나 임의의 수의 모드를 융합하는 것은 아직 충분히 연구되지 않았습니다. 이 문제를 깊이 탐구하기 위해, 우리는 깊이(Depth), LiDAR, 다중 시점(Views), 이벤트(Events), RGB 등을 포함하는 DeLiVER 임의 모드 분할 벤치마크를 생성했습니다. 또한, 이 데이터셋은 네 가지 극단적인 날씨 조건과 다섯 가지 센서 고장 사례를 포함하여 모드 보완성을 활용하고 부분적인 장애를 해결할 수 있도록 제공됩니다.이를 가능하게 하기 위해, 우리는 임의의 크로스-모달 분할 모델인 CMNeXt를 제시합니다. CMNeXt는 임의의 모달에서 효과적인 정보를 추출하여 RGB 표현과 후속으로 융합하도록 설계된 자기 쿼리 허브(Self-Query Hub, SQ-Hub)를 포함하며, 추가 모달당 약 0.01M 정도의 매개변수만 추가됩니다. 또한, 보조 모달로부터 차별화된 신호를 효율적이고 유연하게 수집하기 위해 간단한 병렬 풀링 믹서(Parallel Pooling Mixer, PPX)를 도입하였습니다.총 여섯 개의 벤치마크에서 광범위한 실험을 통해 우리의 CMNeXt는 DeLiVER, KITTI-360, MFNet, NYU Depth V2, UrbanLF, MCubeS 데이터셋에서 최고 성능을 달성하였습니다. 특히 새로 수집된 DeLiVER에서 4개 모달 CMNeXt는 단일 모달 기준에 비해 +9.10% 개선된 66.30% mIoU(mean Intersection over Union) 성능을 기록하였습니다.DeLiVER 데이터셋과 우리의 코드는 다음 링크에서 확인할 수 있습니다: https://jamycheung.github.io/DELIVER.html.