MTANet: RGB-T 도시 환경 이해를 위한 계층적 다중모달 융합을 갖춘 다중작업 인지 네트워크
도시 환경 이해는 보조 운전 및 자율주행 차량에 있어 핵심적인 능력 요구사항이다. 현재까지 공개된 도시 환경 이해 방법의 대부분은 빨강-초록-파랑(RGB) 이미지를 활용하고 있으나, 악조건의 조명 환경에서 세그멘테이션 성능이 저하되는 경향이 있다. 최근 들어 도시 환경 이해를 위한 효과적인 인공 신경망이 다수 제안되었으며, RGB 이미지와 열화상 이미지(RGB-T)를 결합함으로써 조명 조건이 불량한 상황에서도 세그멘테이션 정확도를 향상시킬 수 있음을 보여주었다. 그러나 단순히 RGB와 열화상 특징을 연결하거나 특징 맵을 평균화하는 등의 간단한 연산 방식이 사용되면서 다중 모달 특징 융합의 잠재력은 여전히 충분히 활용되지 못하고 있다. 다중 모달 특징 융합과 세그멘테이션 정확도를 향상시키기 위해, 본 논문에서는 RGB-T 도시 환경 이해를 위한 계층적 다중 모달 융합(다스케일 융합 전략)을 갖춘 다과제 인지 네트워크(MTANet)를 제안한다. 계층적 다중 모달 융합 모듈을 개발하여 특징 융합을 강화하였으며, 고수준의 의미 정보를 추출하는 의미 모듈을 설계하여 다양한 추상 수준의 거친 특징과 융합할 수 있도록 하였다. 다수준 융합 모듈을 통해 저수준, 중간 수준, 고수준의 융합을 활용하여 세그멘테이션 정확도를 향상시켰다. 다과제 모듈은 경계, 이진, 의미 정보에 대한 감독 신호를 사용하여 MTANet의 파라미터를 최적화한다. 제안된 MTANet의 성능 향상 여부를 검증하기 위해 두 개의 벤치마크 RGB-T 데이터셋에서 광범위한 실험을 수행하였으며, 기존 최첨단 방법들과 비교하여 우수한 성능을 입증하였다.