다중스펙트럼 비디오 의미 분할: 벤치마크 데이터셋 및 베이스라인

복잡한 환경에서 강건하고 신뢰할 수 있는 의미적 세그멘테이션은 자율 주행 안전 및 야간 구조 활동과 같은 실생활 응용 분야에 있어 핵심적인 요소이다. 대부분의 기존 접근 방식은 RGB 이미지를 입력으로 사용하는 것이 일반적이다. 그러나 이러한 방법은 이상적인 기상 조건에서만 효과적으로 작동하며, 비 오는 날, 과도한 조도, 또는 저조도와 같은 악조건에서는 만족스러운 결과를 제공하지 못하는 경우가 많다. 이러한 문제를 해결하기 위해 최근에는 RGB와 열적 적외선 이미지(RGBT)를 모두 입력으로 활용하는 다스펙트럴 의미적 세그멘테이션에 대한 연구가 활발히 진행되고 있다. 이는 복잡한 환경과 악조건에서도 이미지 객체에 대해 훨씬 강건한 세그멘테이션 성능을 가능하게 한다. 그러나 기존의 연구는 단일 RGBT 이미지 입력에 국한되어 있어, 실세계의 동적 장면을 효과적으로 다루는 데 한계가 있다. 위의 관찰에 기반하여, 본 논문에서는 다스펙트럴 영상 입력에 대한 의미적 세그멘테이션이라는 비교적 새로운 과제에 도전한다. 이를 '다스펙트럴 영상 의미적 세그멘테이션(Multispectral Video Semantic Segmentation, MVSS)'이라고 명명한다. 이를 위해 자체적으로 구축한 MVSeg 데이터셋을 제안하며, 이는 738개의 보정된 RGB 및 열적 영상과 함께 26개 카테고리에 대한 3,545개의 세밀한 픽셀 수준의 의미적 레이블을 포함하고 있다. 본 데이터셋은 낮과 밤을 막론하고 다양한 도심 환경을 포괄하며, 높은 도전성의 시나리오를 포함하고 있다. 또한, 다스펙트럴 정보와 시간적 맥락을 동시에 학습할 수 있는 MVSS 기반 모델인 MVNet을 제안한다. 이는 현재까지 알려진 바에 따르면, 다스펙트럴 영상 입력에서 시간적 정보와 의미적 표현을 공동으로 학습하는 최초의 모델이다. MVSeg 데이터셋을 기반으로 다양한 의미적 세그멘테이션 모델을 활용한 종합적인 실험을 수행하였으며, 실험 결과 다스펙트럴 영상 입력의 도입이 의미적 세그멘테이션 성능에 상당한 향상을 가져옴을 확인하였다. 또한 제안한 MVNet 기반 모델의 효과성 역시 실증적으로 검증되었다.