2달 전

다중 선택 질문을 활용한 비디오-텍스트 검색 연결

Yuying Ge; Yixiao Ge; Xihui Liu; Dian Li; Ying Shan; Xiaohu Qie; Ping Luo
다중 선택 질문을 활용한 비디오-텍스트 검색 연결
초록

최근 몇 년 동안 검색을 위한 전이 가능한 비디오-텍스트 표현을 학습하기 위해 모델의 사전 학습(pre-training)이 많은 주목을 받고 있습니다. 이전의 주요 연구들은 효율적인 검색을 위해 두 개의 별도 인코더(two separate encoders)를 주로 채택하였지만, 비디오와 텍스트 간의 국소적 연관성(local associations)을 무시하였습니다. 다른 연구 방향은 비디오와 텍스트를 상호작용시키기 위해 공동 인코더(joint encoder)를 사용하지만, 각 텍스트-비디오 쌍(text-video pair)을 모델에 입력해야 하므로 효율성이 낮아집니다. 본 연구에서는 새로운 사전 작업(pretext task)인 다중 선택 질문(Multiple Choice Questions, MCQ)을 통해 검색 시 고효율성을 유지하면서도 세부적인 비디오-텍스트 상호작용(fine-grained video-text interactions)을 가능하게 합니다. 여기서 파라메트릭 모듈(parametric module)인 BridgeFormer가 텍스트 특징(text features)으로 구성된 "질문"에 비디오 특징(video features)을 활용하여 답하도록 학습됩니다.특히, 텍스트의 풍부한 의미론적 정보(예: 명사와 동사)를 활용하여 질문을 구축하고, 이를 통해 비디오 인코더(video encoder)가 더 많은 지역적 내용과 시간적 동태성을 포착하도록 학습할 수 있습니다. 질문과 답변 형태를 통해 국소 비디오-텍스트 특징(local video-text features) 간의 의미론적 연관성(semantic associations)이 적절히 설정될 수 있습니다. BridgeFormer는 후속 검색(downstream retrieval)에서 제거될 수 있어, 두 개의 인코더만으로 구성된 효율적이고 유연한 모델을 제공합니다.본 방법은 다양한 실험 환경(zero-shot 및 fine-tune 포함)에서 5개 데이터셋에서 인기 있는 텍스트-비디오 검색 작업(text-to-video retrieval task)에서 최신 기법(state-of-the-art methods)보다 우수한 성능을 보입니다. 이는 100만 개 이상의 비디오가 포함된 HowTo100M 데이터셋에서도 확인되었습니다. 또한, 본 방법은 영상-텍스트 검색(video-to-text retrieval)으로 해석될 수 있는 제로샷 액션 인식(zero-shot action recognition)에서도 적용되었으며, 그 결과 역시 현저히 뛰어났습니다. 부가적으로, 본 방법은 단일 모달리티(single-modality downstream tasks) 후속 작업에서 더 짧은 사전 학습 영상(pre-training videos)으로 경쟁력 있는 결과를 얻는데 성공하였습니다. 예를 들어, 선형 평가(linear evaluation)를 통한 액션 인식(action recognition)에서 좋은 성능을 보였습니다.

다중 선택 질문을 활용한 비디오-텍스트 검색 연결 | 최신 연구 논문 | HyperAI초신경