7일 전
VideoCoCa: 대조적 캡션 생성기로부터의 제로샷 전이를 통한 비디오-텍스트 모델링
Shen Yan, Tao Zhu, Zirui Wang, Yuan Cao, Mi Zhang, Soham Ghosh, Yonghui Wu, Jiahui Yu

초록
우리는 기초 영상-텍스트 모델을 효과적으로 구축하기 위한 접근법을 탐구한다. 우리는 사전 훈련된 이미지-텍스트 대조적 캡션 모델(즉, CoCa)을 최대한 재사용하고, 추가적인 훈련을 최소화하여 영상-텍스트 작업에 적응시키는 VideoCoCa를 제안한다. 이전 연구들은 다양한 크로스 프레임 융합 모듈을 활용하여 이미지-텍스트 모델을 영상-텍스트 작업에 적응시켰지만, 우리는 CoCa 내에 존재하는 생성적 어텐션 풀링 및 대조적 어텐션 풀링 레이어가 평탄화된 프레임 임베딩에 즉시 적응 가능함을 발견하였으며, 이는 제로샷 영상 분류 및 제로샷 텍스트-영상 검색에서 최고 수준의 성능을 달성한다. 더불어, VideoCoCa 위에 가벼운 파인튜닝을 적용하여 영상 질의응답 및 영상 캡션 작업에서도 뛰어난 성능을 달성하였다.