ShapeConv: 실내 RGB-D 세분할을 위한 형태 인지 컨볼루션 레이어

최근 몇 년 동안 RGB-D 세분화(Semantic Segmentation)에 대한 관심이 점점 증가하고 있다. 기존의 방법들은 주로 RGB 및 깊이 특징을 처리하는 데 동일한 종류의 컨볼루션 연산자를 사용하지만, 이들 특징 간의 본질적인 차이를 간과하고 있다. 실제로 RGB 값은 투영된 이미지 공간에서의 광학적 외관 특성을 반영하는 반면, 깊이 특징은 지역 기하학적 형태와 더 넓은 맥락 내에서 해당 기하학의 위치(기저, base)를 동시에 인코딩한다. 기저에 비해 형태는 더 본질적이고 의미 정보와 더 밀접한 관련이 있으며, 따라서 세분화 정확도에 더 중요한 역할을 한다. 이러한 관찰에 착안하여, 깊이 특징을 처리하기 위한 '형태 인지 컨볼루션 층(Shape-aware Convolutional layer, ShapeConv)'을 제안한다. ShapeConv는 깊이 특징을 먼저 형태 성분(shape-component)과 기저 성분(base-component)으로 분해하고, 각각에 독립적으로 학습 가능한 가중치를 도입한 후, 재가중된 두 성분의 조합에 대해 컨볼루션을 적용한다. ShapeConv는 모델에 종속되지 않으며, 대부분의 CNN 구조에 쉽게 통합되어 기존의 일반 컨볼루션 층을 대체할 수 있다. NYU-Dv2(-13, -40), SUN RGB-D, SID와 같은 세 가지 도전적인 실내 RGB-D 세분화 벤치마크에서 수행한 광범위한 실험 결과는, 다섯 가지 인기 있는 아키텍처에 ShapeConv를 적용했을 때 그 효과가 입증됨을 보여준다. 또한, ShapeConv를 적용한 CNN의 성능은 추론 단계에서 계산량이나 메모리 사용량의 증가 없이 향상된다. 그 이유는 ShapeConv에서 형태 성분과 기저 성분 간의 중요도를 균형 잡는 데 학습된 가중치가 추론 단계에서는 상수로 고정되기 때문에, 다음 컨볼루션 층에 통합될 수 있기 때문이다. 이로 인해, 최종 네트워크는 기존의 일반 컨볼루션 층을 사용한 네트워크와 동일한 구조를 갖게 된다.