
3D 장면 이해는 컴퓨터 비전 및 로봇 공학 응용 분야에서 주로 핵심적인 요구 조건으로 간주된다. 3D 장면 이해의 고수준 과제 중 하나는 RGB-Depth 이미지의 의미적 분할(semantic segmentation)이다. RGB-D 카메라의 보편화에 따라, 외관 특징과 함께 깊이 특징을 활용함으로써 장면 이해 과정의 정확도를 향상시키는 것이 요구되고 있다. 깊이 이미지는 조도에 영향을 받지 않기 때문에 RGB 이미지와 함께 의미적 레이블링의 품질을 향상시킬 수 있다. 이러한 두 가지 모달리티(모드)의 공통적이고 고유한 특징을 함께 고려함으로써 의미적 분할의 성능을 향상시킬 수 있다. RGB-Depth 의미적 분할에서 가장 주요한 문제 중 하나는 두 모달리티를 어떻게 융합하거나 결합할 것인가이며, 이는 각 모달리티의 장점을 극대화하면서도 계산 효율성을 유지하는 것이다. 최근에는 깊은 합성곱 신경망을 활용한 방법들이 조기(fusion), 후기(fusion), 중간(fusion) 융합 전략을 통해 최첨단 성능을 달성하고 있다. 본 논문에서는 두 모달리티의 특징 맵 간의 상호 영향을 통합하기 위해 주목성 기반의 융합 블록을 갖춘 효율적인 인코더-디코더 모델을 제안한다. 이 블록은 두 모달리티의 특징 맵을 연결(concatenated)한 후, 그 사이의 상호의존 관계를 명시적으로 추출함으로써 RGB-Depth 이미지로부터 더욱 강력한 특징 맵을 추출하는 데 기여한다. NYU-V2, SUN RGB-D, Stanford 2D-3D-Semantic 세 가지 주요 도전 과제 데이터셋에 대한 광범위한 실험 결과는 제안된 네트워크가 계산 비용과 모델 크기 측면에서 최첨단 모델들을 능가함을 보여준다. 또한 실험 결과는 제안된 경량 주목성 기반 융합 모델이 정확도 측면에서 효과적임을 입증하고 있다.