Look-into-Object: 객체 인식을 위한 자기 지도 구조 모델링
대부분의 객체 인식 접근 방식은 차별적인 시각적 패턴 학습에 중점을 두면서 전체적인 객체 구조를 간과하는 경향이 있습니다. 구조 모델링은 중요하지만, 일반적으로 많은 수작업 주석이 필요하므로 노동 집약적입니다. 본 논문에서는 전통적인 프레임워크에 자기 감독(self-supervisions)을 통합하여 "객체 내부 살펴보기"(객체 구조를 명시적이면서도 내재적으로 모델링) 방법을 제안합니다. 우리는 이 방법을 통해 추가적인 주석이나 추론 속도에 어떠한 비용도 들이지 않으면서 더 강력한 표현 학습을 위한 인식 백본의 성능을 크게 향상시킬 수 있음을 보여줍니다.구체적으로, 먼저 동일 범주 내 인스턴스에서 공유되는 시각적 패턴에 따라 객체를 위치시키는 객체 범위 학습 모듈(object-extent learning module)을 제안합니다. 그 다음으로, 객체 범위 내에서 상대 위치를 예측하여 객체의 내부 구조를 모델링하는 공간 맥락 학습 모듈(spatial context learning module)을 설계합니다. 이 두 개의 모듈은 훈련 중에는 어떤 백본 네트워크에도 쉽게 연결할 수 있으며, 추론 시에는 분리할 수 있습니다.다양한 실험 결과를 통해 우리의 "객체 내부 살펴보기" 접근 방식(LIO)이 일반적인 객체 인식(ImageNet) 및 세밀한 객체 인식 작업(CUB, Cars, Aircraft) 등 여러 벤치마크에서 큰 성능 향상을 달성함을 입증하였습니다. 또한 이 학습 패러다임이 객체 검출 및 분할(MS COCO) 등의 다른 작업에도 높은 일반화 능력을 가지고 있음을 보여주었습니다. 프로젝트 페이지: https://github.com/JDAI-CV/LIO.