
초록
RGB-thermal 시맨틱 세그멘테이션은 악천후 및 조명 조건에서 신뢰할 수 있는 시맨틱 장면 이해를 달성하기 위한 잠재적인 해결책 중 하나입니다. 그러나 이전 연구들은 대부분 다중 모달 입력의 특성을 고려하지 않고 다중 모달 융합 모듈 설계에 초점을 맞추었습니다. 따라서 네트워크는 쉽게 단일 모달에 지나치게 의존하게 되어, 각 모달에 대해 보완적이고 의미 있는 표현을 학습하는 것이 어려워졌습니다. 본 논문에서는 1) RGB-T 이미지의 보완적 랜덤 마스킹 전략과 2) 깨끗한 입력 모달과 마스킹된 입력 모달 간의 자기 증류 손실(self-distillation loss)을 제안합니다. 제안된 마스킹 전략은 단일 모달에 대한 과도한 의존성을 방지하며, 네트워크가 한 모달이 부분적으로만 사용 가능한 경우에도 객체를 세그먼트하고 분류하도록 강제함으로써 신경망의 정확성과鲁棒性을 향상시킵니다(robustness). 또한, 제안된 자기 증류 손실은 네트워크가 단일 모달 또는 보완적으로 마스킹된 모달로부터 보완적이고 의미 있는 표현을 추출하도록 유도합니다. 제안된 방법을 바탕으로, 우리는 세 가지 RGB-T 시맨틱 세그멘테이션 벤치마크에서 최고 수준의 성능을 달성했습니다. 우리의 소스 코드는 https://github.com/UkcheolShin/CRM_RGBTSeg에서 확인할 수 있습니다.注:在翻译“鲁棒性”时,由于这不是一个常见的韩语词汇,我保留了英文“robustness”,并在前面加上了相应的韩语解释。