
초록
현재 콘텐츠 기반 영상 검색(Content-Based Video Retrieval) 연구는 관련 사건, 이벤트 등에 대한 장거리 의미적 종속 관계를 설명하는 고수준의 영상 표현을 요구하고 있다. 그러나 기존의 방법들은 일반적으로 영상의 프레임을 개별 이미지 또는 단일 클립으로 처리하기 때문에 장거리 의미적 종속 관계를 효과적으로 모델링하기 어렵다. 본 논문에서는 프레임 수준의 특징 간 장거리 시간적 정보를 자기 주의(self-attention) 메커니즘을 활용하여 통합하는 영상 표현 학습 프레임워크인 TCA(Temporal Context Aggregation for Video Retrieval)를 제안한다. 영상 검색 데이터셋에서 모델을 훈련하기 위해, 자동으로 어려운 음성 샘플(hard negatives)을 탐색하고 메모리 은행(memory bank) 기법을 활용하여 음성 샘플의 용량을 증가시키는 감독형 대조 학습(supervised contrastive learning) 방법을 제안한다. 다양한 영상 검색 작업, 예를 들어 CC_WEB_VIDEO, FIVR-200K, EVVE에서 광범위한 실험을 수행한 결과, 영상 수준의 특징을 사용하는 최신 기법들에 비해 상당한 성능 우위(~17% mAP 향상, FIVR-200K 기준)를 보였으며, 프레임 수준 특징을 사용하는 기법에 비해 22배 빠른 추론 속도를 제공하면서도 경쟁 가능한 성능을 달성하였다.