2달 전

Look-into-Object: 객체 인식을 위한 자기 지도 구조 모델링

Zhou, Mohan ; Bai, Yalong ; Zhang, Wei ; Zhao, Tiejun ; Mei, Tao
초록

대부분의 객체 인식 접근 방식은 차별적인 시각적 패턴 학습에 중점을 두면서 전체적인 객체 구조를 간과하는 경향이 있습니다. 구조 모델링은 중요하지만, 일반적으로 많은 수작업 주석이 필요하므로 노동 집약적입니다. 본 논문에서는 전통적인 프레임워크에 자기 감독(self-supervisions)을 통합하여 "객체 내부 살펴보기"(객체 구조를 명시적이면서도 내재적으로 모델링) 방법을 제안합니다. 우리는 이 방법을 통해 추가적인 주석이나 추론 속도에 어떠한 비용도 들이지 않으면서 더 강력한 표현 학습을 위한 인식 백본의 성능을 크게 향상시킬 수 있음을 보여줍니다.구체적으로, 먼저 동일 범주 내 인스턴스에서 공유되는 시각적 패턴에 따라 객체를 위치시키는 객체 범위 학습 모듈(object-extent learning module)을 제안합니다. 그 다음으로, 객체 범위 내에서 상대 위치를 예측하여 객체의 내부 구조를 모델링하는 공간 맥락 학습 모듈(spatial context learning module)을 설계합니다. 이 두 개의 모듈은 훈련 중에는 어떤 백본 네트워크에도 쉽게 연결할 수 있으며, 추론 시에는 분리할 수 있습니다.다양한 실험 결과를 통해 우리의 "객체 내부 살펴보기" 접근 방식(LIO)이 일반적인 객체 인식(ImageNet) 및 세밀한 객체 인식 작업(CUB, Cars, Aircraft) 등 여러 벤치마크에서 큰 성능 향상을 달성함을 입증하였습니다. 또한 이 학습 패러다임이 객체 검출 및 분할(MS COCO) 등의 다른 작업에도 높은 일반화 능력을 가지고 있음을 보여주었습니다. 프로젝트 페이지: https://github.com/JDAI-CV/LIO.