보유한 것을 활용하다: 협업 전문가의 표현을 사용한 비디오 검색

인터넷에서 비디오의 급속한 성장은 자연어 쿼리를 사용하여 비디오 콘텐츠를 검색하는 데 큰 도전을 안겨주고 있습니다. 실제 환경에서 인간이 생성한 비디오 데이터셋에 대한 쿼리는 유명인물의 이름, 화면에 표시된 말이나 텍스트와 같은 특정 세부 사항을 설명하는 것부터 일반적인 내용까지 다양합니다. 우리의 목표는 자유형식의 텍스트 쿼리를 사용하여 비디오를 검색하는 작업에서, 이러한 쿼리의 구체성 정도가 제한되지 않은 상황에서, 비디오에서 다중 모달(multi-modal)이고 매우 고차원(high dimensional)인 정보를 단일하고 압축된 비디오 표현으로 축약하는 것입니다.이를 위해 미리 학습된 의미 임베딩(pre-trained semantic embeddings) 형태로 존재하는 지식을 활용합니다. 이에는 시각적 콘텐츠로부터 추출된 '일반' 특징들, 즉 움직임(motion), 외관(appearance), 그리고 장면(scene) 특징들이 포함됩니다. 또한 ASR(Automatic Speech Recognition) 및 OCR(Optical Character Recognition)에서 얻을 수 있는 더 '구체'적인 신호들을 탐구하며, 이러한 신호들이 검색에 효과적으로 활용되기 어렵다는 것을 발견했습니다. 우리는 이러한 다양한 미리 학습된 전문가들로부터 정보를 집계하기 위한 협업 전문가 모델(collaborative experts model)을 제안하며, MSR-VTT, LSMDC, MSVD, DiDeMo, ActivityNet 등 5개의 검색 벤치마크에서 우리의 접근 방식을 경험적으로 평가하였습니다. 코드와 데이터는 www.robots.ox.ac.uk/~vgg/research/collaborative-experts/ 에서 확인할 수 있습니다. 본 논문은 이전 버전에서 보고된 결과에 대한 수정 사항을 포함하고 있습니다.