OCNet: Object Context Network for Scene Parsing OCNet: 객체 문맥 네트워크를 이용한 장면 해석

본 논문에서는 새로운 컨텍스트 집계 방식인 \emph{오브젝트 컨텍스트}(object context)를 사용하여 의미 분할 작업을 다룹니다. 이 방식은 오브젝트 정보의 역할을 강화하는 데 중점을 두고 있습니다. 각 픽셀의 카테고리가 해당 픽셀이 속한 오브젝트로부터 상속된다는 사실에 착안하여, 이미지 내에서 주어진 픽셀과 동일한 카테고리를 가진 픽셀들의 집합을 각 픽셀의 오브젝트 컨텍스트로 정의합니다. 모든 픽셀 간의 관계를 표현하기 위해 이진 관계 행렬(binary relation matrix)을 사용하며, 값 1은 두 선택된 픽셀이 동일한 카테고리에 속하고, 0은 그렇지 않음을 나타냅니다.우리는 이진 관계 행렬의 대체물로 밀도 관계 행렬(dense relation matrix)을 제안합니다. 밀도 관계 행렬은 오브젝트 픽셀에서 다른 픽셀보다 관계 점수가 더 크기 때문에 오브젝트 정보의 기여도를 강조할 수 있습니다. 그러나 밀도 관계 행렬 추정은 입력 크기에 대해 이차적인 계산 부하와 메모리 소비가 필요하다는 점을 고려하여, 모든 픽셀 쌍 간의 밀도 관계를 두 개의 희소 관계 행렬(sparse relation matrix) 조합을 통해 모델링하는 효율적인 교차 희소 자기 주목력(interlaced sparse self-attention) 방식을 제안합니다.더 많은 컨텍스트 정보를 포착하기 위해, 우리는 교차 희소 자기 주목력 방식을 피라미드 풀링(pyramid pooling)~\citep{zhao2017pyramid} 및 아트루스 공간 피라미드 풀링(atrous spatial pyramid pooling)~\citep{chen2018deeplab}과 같은 전통적인 다중 스케일 컨텍스트 방식과 결합하였습니다. 실험적으로 본 접근법의 우수성을 Cityscapes, ADE20K, LIP, PASCAL-Context 및 COCO-Stuff 등 다섯 가지 도전적인 벤치마크에서 경쟁력 있는 성능으로 입증하였습니다.