
초록
다수의 공간 모달리티를 활용하는 것은 의미 분할 성능을 향상시키는 데 효과적임이 입증되어 왔다. 그러나 실세계 환경에서는 아직 해결되지 않은 여러 도전 과제가 존재한다. 첫째, 레이블 효율성 향상이며, 둘째, 테스트 시 모달리티가 누락되는 현실적인 상황에서의 강건성(로버스트니스) 향상이다. 이러한 과제를 해결하기 위해, 우리는 제한된 감독 정보 하에서도 최신 기술보다 뛰어난 성능을 보이는 간단하면서도 효율적인 다중 모달 융합 기법인 Linear Fusion을 제안한다. 둘째, 우리는 M3L(Multi-modal Teacher for Masked Modality Learning)이라는 반감독 학습 프레임워크를 제안한다. 이 프레임워크는 레이블이 없는 데이터를 활용하여 다중 모달 성능을 향상시키는 동시에, 실제 환경에서 모달리티가 누락되는 상황에도 강건한 모델을 구축할 수 있도록 한다. 또한 우리는 반감독 다중 모달 의미 분할을 위한 최초의 벤치마크를 구축하고, 모달리티 누락에 대한 강건성도 보고한다. 제안한 방법은 가장 경쟁력 있는 기준 모델 대비 강건한 mIoU에서 최대 10%의 절대적 성능 향상을 달성한다. 코드는 다음 링크에서 공개되어 있다: https://github.com/harshm121/M3L