
다양한 컴퓨터 비전 작업에서 합성곱 신경망(Convolutional Neural Networks)이 놀라운 성공을 거두고 있음에도 불구하고, 복잡한 구조로 인해 실내 장면 인식은 여전히 큰 도전 과제로 남아 있다. 이에 따라 장면 내의 의미 정보를 효과적으로 활용하는 것은 실내 장면 인식 기술의 발전을 위한 핵심 과제가 되었다. 그러나 기존의 의미 분할(Semantic Segmentation) 정확도의 한계로 인해, 의미 정보를 활용하는 기존 접근법들의 효과성이 제한되어 왔다. 결과적으로 많은 접근법들이 보조 레이블링 또는 동시 발생 통계 수준에 머물러 있으며, 장면 내 의미 요소들 간의 맥락적 관계를 직접 탐색하는 연구는 드물다. 본 논문에서는 장면 내 의미 정보로부터 직접 시작하는 의미 영역 관계 모델(Semantic Region Relationship Model, SRRM)을 제안한다. 구체적으로 SRRM은 의미 모호성의 부정적 영향을 적응적이고 효율적인 방식으로 완화하고, 의미 영역 간의 관계를 모델링함으로써 장면 인식을 수행한다. 또한 장면 내 포함된 정보를 보다 포괄적으로 활용하기 위해 제안된 SRRM을 PlacesCNN 모듈과 결합하여 복합적 의미 영역 관계 모델(Combined Semantic Region Relation Model, CSRRM)을 구성하고, 두 모델 간의 보완적 정보를 효과적으로 탐색할 수 있는 새로운 정보 결합 방법을 제안한다. CSRRM은 재학습 없이도 MIT Indoor 67, 축소된 Places365 데이터셋, SUN RGB-D에서 최신 기술(SOTA) 방법들을 크게 능가한다. 코드는 다음 주소에서 제공된다: https://github.com/ChuanxinSong/SRRM