2달 전

SEA: 문장 인코더 어셈블리를 이용한 텍스트 쿼리 기반 비디오 검색

Li, Xirong ; Zhou, Fangming ; Xu, Chaoxi ; Ji, Jiaqi ; Yang, Gang
SEA: 문장 인코더 어셈블리를 이용한 텍스트 쿼리 기반 비디오 검색
초록

텍스트 쿼리로 라벨이 부착되지 않은 비디오를 검색하는 기술, 즉 Ad-hoc Video Search (AVS)는 멀티미디어 데이터 관리 및 검색의 핵심 주제입니다. AVS의 성공은 쿼리 문장과 비디오를 공통 공간으로 인코딩하여 의미적 유사성을 계산하는 크로스-모달 표현 학습에 크게 의존합니다. 이전 연구에서 여러 문장 인코더를 결합한 초기 성공을 바탕으로, 본 논문에서는 다양한 문장 인코더를 효과적으로 활용하기 위한 새로운 일반적인 방법을 제안합니다. 이 방법을 Sentence Encoder Assembly (SEA)라고 명명하며, 그 혁신성은 두 가지 측면에서 나타납니다. 첫째, 이전 연구가 단일 공통 공간만 사용하는 것과 달리, SEA는 여러 인코더 특화 공통 공간에서 텍스트-비디오 매칭을 지원합니다. 이러한 특성은 특정 인코더가 다른 인코더보다 훨씬 긴 인코딩 벡터를 생성하여 매칭 과정을 지배하는 것을 방지합니다. 둘째, 개별 공통 공간 간의 보완성을 탐구하기 위해 다중 공간 다중 손실 학습(multi-space multi-loss learning)을 제안합니다. 네 가지 벤치마크(MSR-VTT, TRECVID AVS 2016-2019, TGIF, MSVD)에서 수행된 광범위한 실험 결과 SEA가 최신 기술(state-of-the-art)을 능가함을 확인할 수 있었습니다. 또한 SEA는 구현이 매우 용이합니다. 이러한 모든 특징은 SEA가 AVS에 대한 매력적인 해결책이며, 새로운 문장 인코더를 활용하여 지속적으로 업무를 발전시킬 가능성이 높음을 시사합니다.