RGB-D 실내 세분화를 위한 국소성 민감한 디컨볼루션 네트워크와 게이트형 퓨전

본 논문은 RGB-D 데이터를 이용한 실내 세분화(semantic segmentation)에 초점을 맞추고 있다. 일반적으로 사용되는 디컨볼루션 네트워크(DeconvNet)는 이 작업에서 놀라운 성과를 거두었지만, 두 가지 측면에서 여전히 개선의 여지가 있음을 발견하였다. 첫째, 경계 세분화에 관한 문제이다. DeconvNet은 각 픽셀의 레이블을 예측하기 위해 넓은 맥락(context)을 통합하는 구조를 가지며, 이는 객체 경계의 세분화 정밀도를 본질적으로 제한한다. 둘째, RGB-D 융합에 관한 문제이다. 최근 최신 기법들은 다양한 장면에서 서로 다른 카테고리를 구분하는 데 있어 RGB와 깊이 정보의 기여도가 상이함에도 불구하고, 항상 동일한 가중치로 두 모달리티의 점수를 융합하는 방식을 채택하고 있다. 이러한 두 가지 문제를 해결하기 위해, 우리는 각 모달리티에 대해 경계 세분화를 보다 정교하게 개선할 수 있도록 국소 민감도를 갖춘 디컨볼루션 네트워크(LS-DeconvNet)를 제안한다. LS-DeconvNet은 원시 RGB-D 데이터로부터 추출한 국소적 시각적 및 기하학적 정보를 각 DeconvNet에 통합함으로써, 넓은 맥락을 유지하면서도 굵은 컨볼루션 맵을 업샘플링하고 날카로운 객체 경계를 복원하는 능력을 학습할 수 있다. RGB-D 융합 측면에서는, 두 개의 LS-DeconvNet을 효과적으로 결합할 수 있도록 게이트(gated) 기반 융합 레이어를 도입한다. 이 레이어는 각 픽셀에 대해 RGB와 깊이 정보의 기여도를 자동으로 조정함으로써 고성능 객체 인식을 가능하게 한다. 대규모 SUN RGB-D 데이터셋과 대중적인 NYU-Depth v2 데이터셋에서 수행한 실험 결과, 본 연구에서 제안한 방법이 RGB-D 기반 실내 세분화 분야에서 새로운 최고 성능(SOTA)을 달성함을 확인하였다.