
신뢰성 있게 장면을 인식하고 이해하는 것은 로봇이 실제 환경에서 작동할 수 있는 중요한 요소입니다. 이 문제는 다양한 물체 유형과 변화하는 조명 및 날씨 조건에 의해 발생하는 외관 변화로 인해 본질적으로 어려운 문제입니다. 보완적인 모달리티를 활용하면 이러한 변동에 견딜 수 있는 의미론적으로 더 풍부한 표현을 학습할 수 있습니다. 최근 몇 년 동안 엄청난 발전이 이루어졌음에도 불구하고, 대부분의 다중모달 컨볼루션 신경망 접근 방식은 개별 모달리티 스트림에서 추출된 특징 맵을 직접 결합하여 모델이 융합 시 관련 정보만 집중할 수 없게 만드는 한계가 있습니다. 이 한계를 극복하기 위해, 우리는 객체 카테고리, 공간 위치 및 장면 문맥에 민감하면서도 자기 감독 방식으로 모달리티 특징의 융합을 동적으로 적응시키는 다중모달 의미 분할 프레임워크를 제안합니다. 구체적으로, 두 개의 모달리티 특화 인코더 스트림을 사용하여 중간 인코더 표현을 단일 디코더로 융합하는 아키텍처를 제안하며, 이는 우리의 제안한 자기 감독 모델 적응 융합 메커니즘을 통해 최적의 보완적 특징 결합을 수행합니다. 중간 표현이 모달리티 간에 정렬되지 않은 경우, 우리는 더 나은 상관 관계를 위해 주의 메커니즘(attention scheme)을 도입하였습니다. 또한, AdapNet++라는 이름의 계산 효율적인 단일모달 분할 아키텍처를 제안하는데, 이는 다중스케일 잔차 유닛(multiscale residual units)과 효과적인 수용 필드(receptive field)가 크면서 10배 이상 적은 매개변수(parameter)를 가진 효율적인 애티루스 스페이셜 피라미드 풀링(atrous spatial pyramid pooling)을 통합한 새로운 인코더와 고해상도 세부 정보를 복원하는 강력한 디코더로 구성되며, 후자는 다중해상도 감독 체계(multi-resolution supervision scheme)를 포함합니다. 여러 벤치마크에서 수행된 포괄적인 경험적 평가는 우리의 단일모달 및 다중모달 아키텍처가 최고 성능(state-of-the-art performance)을 달성함을 입증합니다.