Cap4Video: 보조 캡션은 텍스트-비디오 검색에서 어떤 역할을 할 수 있는가?

기존의 텍스트-비디오 검색 방법들은 주로 비디오의 시각적 콘텐츠와 텍스트 쿼리 문장 간의 크로스모달 매칭에 초점을 맞추고 있다. 그러나 실제 환경에서는 온라인 비디오가 제목, 태그, 심지어 자막과 같은 관련 텍스트 정보를 함께 제공하는 경우가 많으며, 이러한 정보는 텍스트 쿼리와의 매칭에 활용될 수 있다. 이러한 통찰을 바탕으로, 우리는 웹 규모의 사전 훈련된 모델(예: CLIP 및 GPT-2)의 지식을 활용하여 영상에서 제로샷 영상 캡션 생성을 통해 직접 관련 캡션을 생성하는 새로운 텍스트-비디오 검색 접근법을 제안한다. 생성된 캡션을 바탕으로 자연스럽게 제기되는 질문은: 이러한 캡션은 텍스트-비디오 검색에 어떤 이점을 제공할 수 있는가? 이를 해결하기 위해, 캡션을 세 가지 방식으로 활용하는 새로운 프레임워크인 Cap4Video를 제안한다. 첫째, 입력 데이터: 영상-캡션 쌍은 훈련 데이터를 보강할 수 있다. 둘째, 중간 특징 상호작용: 영상과 캡션 간의 크로스모달 특징 상호작용을 수행하여 개선된 영상 표현을 생성한다. 셋째, 출력 점수: 쿼리-캡션 매칭 브랜치는 원래의 쿼리-영상 매칭 브랜치를 보완하여 텍스트-비디오 검색 성능을 향상시킨다. 우리는 체계적인 아블레이션 연구를 통해 본 방법의 효과성을 입증한다. 별도의 후처리 없이 Cap4Video는 MSR-VTT(51.4%), VATEX(66.6%), MSVD(51.8%), DiDeMo(52.0%)의 네 가지 표준 텍스트-비디오 검색 벤치마크에서 최신 기술(SOTA) 수준의 성능을 달성하였다. 코드는 https://github.com/whwu95/Cap4Video 에서 공개되어 있다.