DnS: 효율적이고 정확한 비디오 인덱싱 및 검색을 위한 집약 및 선택

본 논문에서는 대규모 데이터셋에서 고성능이며 계산 효율적인 콘텐츠 기반 영상 검색 문제를 다룬다. 기존의 방법들은 일반적으로 두 가지 접근 방식을 제안한다: (i) 공간-시간 표현과 유사도 계산을 활용하는 세밀한 접근 방식은 높은 성능을 달성하지만 계산 비용이 매우 높으며, (ii) 영상을 전역 벡터로 표현하거나 색인화하는 거시적인 접근 방식은 공간-시간 구조 정보를 상실하여 낮은 성능을 보이지만 계산 비용이 낮다. 본 연구에서는 성능이 뛰어난 세밀한 Teacher 네트워크로부터 시작하여, (a) 검색 성능과 계산 효율성 사이의 다양한 트레이드오프를 가지는 Student 네트워크를 학습하고, (b) 테스트 시점에서 샘플을 적절한 Student로 신속하게 방향 전환하는 Selector 네트워크를 학습하는 지식 증류(Knowledge Distillation) 프레임워크인 Distill-and-Select (DnS)를 제안한다. 서로 다른 아키텍처를 가진 여러 Student를 학습함으로써 다양한 성능과 효율성의 트레이드오프를 도출하였으며, 이는 속도와 저장 공간 요구 사항의 차이를 포함한다. 특히, 이중 이진 표현을 사용하여 영상을 저장하거나 색인화하는 세밀한 Student도 포함된다. 중요한 점은 제안된 방식이 레이블이 없는 대규모 데이터셋에서도 지식 증류가 가능하다는 점이며, 이는 우수한 Student를 얻는 데 기여한다. DnS는 세 가지 다른 영상 검색 작업에 대해 다섯 개의 공개 데이터셋에서 평가되었으며, (a) 제안된 Student들이 여러 경우에서 최신 기술(SOTA) 수준의 성능을 달성함을 보였고, (b) DnS 프레임워크가 검색 성능, 계산 속도, 저장 공간 사이에 뛰어난 트레이드오프를 제공함을 입증하였다. 특정 구성에서 제안된 방법은 Teacher와 유사한 mAP 성능을 달성하면서도 20배 빠르며, 저장 공간은 240배 적게 필요하다. 수집된 데이터셋과 구현 코드는 공개되어 있으며, 아래 링크에서 확인할 수 있다: https://github.com/mever-team/distill-and-select.