OBoW: 자기지도 학습을 위한 온라인 시각어워드 집합 생성

인간의 감독 없이 이미지 표현을 학습하는 것은 중요한 연구 분야이며, 활발한 연구가 진행 중이다. 최근 몇 가지 접근법은 다양한 유형의 변형에 대해 표현이 불변(invariant)이 되도록 유도하는 아이디어를 성공적으로 활용해 왔으며, 특히 대조 기반의 인스턴스 식별 학습을 통해 이를 달성했다. 비록 효과적인 시각적 표현은 실제로 이러한 불변성을 보여야 하지만, 다른 중요한 특성들—예를 들어 맥락적 추론 능력을 인코딩하는 것—에 대해서는 대조 기반 접근보다 재구성 기반 접근이 더 적합할 수 있다.이러한 통찰을 바탕으로, 동일한 이미지의 변형된 버전을 입력으로 주었을 때, 컨볼루션 신경망이 그 이미지의 시각적 단어 집합(Bag-of-Visual-Words, BoW) 표현을 재구성하도록 학습시키는 교사-학생 방식을 제안한다. 본 전략은 교사 네트워크(BoW 타겟을 생성하는 역할)와 학생 네트워크(표현을 학습하는 역할)를 동시에 온라인으로 학습시키는 동시에, BoW 타겟에 사용되는 시각적 단어 사전을 실시간으로 업데이트한다. 이러한 방식은 완전한 온라인 BoW 지도 하에 비감독 학습을 가능하게 한다. 광범위한 실험 결과는 본 연구에서 제안한 BoW 기반 전략의 우수성을 입증하며, 여러 응용 분야에서 기존 최고 수준의 방법(대조 기반 방법 포함)을 초월함을 보였다. 예를 들어, Pascal 객체 탐지, Pascal 분류, Places205 분류와 같은 후행 작업에서 본 방법은 모든 이전 비감독 접근법을 능가하며, 감독 사전 학습을 통해 얻은 성능보다도 훨씬 뛰어난 새로운 최고 성능을 확립하였다. 구현 코드는 https://github.com/valeoai/obow 에서 공개한다.