
초록
최근 몇몇 연구에서는 깊은 합성곱 신경망을 통해 생성된 이미지 기술자(image descriptor)가 이미지 분류 및 검색 문제에서 최첨단 성능을 보임을 보여주었다. 또한, 합성곱 층의 활성화 값은 특정 이미지 영역을 설명하는 국소적 특징으로 해석될 수 있음이 밝혀졌다. 이러한 국소적 특징들은 기존 국소적 특징에 대해 개발된 집계 방법(예: 피셔 벡터)을 이용해 집계할 수 있으며, 이를 통해 새로운 강력한 전역적 기술자를 얻을 수 있다. 본 논문에서는 깊은 국소적 특징을 어떻게 집계하여 이미지 검색을 위한 컴팩트한 기술자를 생성할 수 있는지에 대해 탐구한다. 먼저, 깊은 특징과 기존의 수작업으로 설계된 특징 사이의 쌍별 유사도 분포가 매우 다르다는 점을 보여주며, 이는 기존의 집계 방법들이 신중하게 재평가되어야 함을 시사한다. 이러한 재평가 결과, 얕은 특징과는 달리 깊은 합성곱 특징에 대해서는 단순한 합계 풀링(sum pooling) 기반의 집계 방법이 가장 우수한 성능을 보임을 확인할 수 있었다. 이 방법은 효율적이며 파라미터가 적고, 예를 들어 PCA 행렬을 학습할 때 과적합의 위험이 거의 없다. 또한, 제안된 집계 방법에 적합한 간단하면서도 효율적인 쿼리 확장(query expansion) 기법을 제안한다. 종합적으로, 새로운 컴팩트한 전역적 기술자는 네 가지 대표적인 벤치마크에서 기존 최첨단 성능을 크게 향상시켰다.