2달 전
시그마: 다중 모드 의미 분할을 위한 시아메즈 맬버 네트워크
Zifu Wan; Pingping Zhang; Yuhao Wang; Silong Yong; Simon Stepputtis; Katia Sycara; Yaqi Xie

초록
다중 모드 의미 분할은 특히 저조도나 과노출 환경과 같은 불리한 조건에서 AI 에이전트의 인식 및 장면 이해 능력을 크게 향상시킵니다. 전통적인 RGB와 함께 열화상(thermal) 및 깊이(depth) 등의 추가 모드(X-모드)를 활용하면 보완적인 정보를 제공하여 더욱 강력하고 신뢰성 있는 예측을 가능하게 합니다. 본 연구에서는 고급 Mamba를 활용한 다중 모드 의미 분할을 위한 시아메즈 맬바(Siamese Mamba) 네트워크인 Sigma를 소개합니다. 기존 방법들이 제한된 지역 수용 범위를 가진 CNN에 의존하거나, 전역 수용 범위를 제공하지만 이차 복잡도를 갖는 비전 트랜스포머(Vision Transformers, ViTs)를 사용하는 것과 달리, 우리의 모델은 선형 복잡도로 전역 수용 범위를 달성합니다. 시아메즈 인코더와 Mamba 기반 융합 메커니즘을 혁신적으로 도입하여 다양한 모드에서 필수적인 정보를 효과적으로 선택합니다. 이후 디코더가 개발되어 모델의 채널별 모델링 능력을 향상시킵니다. 제안된 방법은 RGB-열화상(RGB-Thermal) 및 RGB-깊이(RGB-Depth) 의미 분할 작업에서 철저히 평가되었으며, 그 우수성을 입증하며 상태 공간 모델(State Space Models, SSMs)이 다중 모드 인식 작업에 성공적으로 적용된 첫 사례입니다. 코드는 https://github.com/zifuwan/Sigma에서 확인할 수 있습니다.