CSFNet: 실시간 주행 장면의 RGB-X 의미 분할을 위한 코사인 유사도 융합 네트워크

의미 분할은 복잡한 시각 해석의 핵심 구성 요소로, 자율 주행 차량 비전 시스템에서 근본적인 역할을 합니다. 최근 연구들은 보완 정보를 활용하고 다중 모달 방법을 개발하여 의미 분할의 정확도를 크게 향상시켰습니다. 그러나 정확도 향상에도 불구하고, 다중 모달 의미 분할 방법은 높은 계산 복잡성과 낮은 추론 속도 문제를 가지고 있어, 이를 주행 응용 프로그램에 구현하는 것이 어려운 과제입니다. 이 문제를 해결하기 위해, 우리는 실시간 RGB-X 의미 분할 모델로서 코사인 유사도 융합 네트워크(Cosine Similarity Fusion Network, CSFNet)를 제안합니다. 특히, 두 모달의 특성을 효과적으로 교정하고 융합하는 코사인 유사도 주의 융합 모듈(Cosine Similarity Attention Fusion Module, CS-AFM)을 설계하였습니다. CS-AFM 모듈은 크로스-모달 유사성을 활용하여 높은 일반화 능력을 달성합니다. 저수준에서 크로스-모달 특성의 융합을 강화함으로써, CS-AFM은 고수준에서 단일 브랜치 네트워크 사용을 가능하게 합니다. 따라서, 인코더에서는 듀얼 및 단일 브랜치 아키텍처를 사용하며, 효율적인 컨텍스트 모듈과 경량 디코더를 통해 빠르고 정확한 예측을 수행합니다. CSFNet의 효과성을 검증하기 위해, Cityscapes, MFNet 및 ZJU 데이터셋을 이용하여 RGB-D/T/P 의미 분할 실험을 수행했습니다. 결과에 따르면, CSFNet은 최신 방법들과 비교해 경쟁력 있는 정확도를 보이며 다중 모달 의미 분할 모델 중 가장 빠른 속도를 자랑합니다. 또한 낮은 매개변수 수와 계산 복잡성 덕분에 높은 효율성을 달성하였습니다. CSFNet의 소스 코드는 https://github.com/Danial-Qashqai/CSFNet에서 제공될 예정입니다.