17일 전

CLIP-ViP: 사전 훈련된 이미지-텍스트 모델을 비디오-언어 표현 정렬에 적응시키기

Hongwei Xue, Yuchong Sun, Bei Liu, Jianlong Fu, Ruihua Song, Houqiang Li, Jiebo Luo
CLIP-ViP: 사전 훈련된 이미지-텍스트 모델을 비디오-언어 표현 정렬에 적응시키기
초록

전체적으로 웹에서 수집한 대규모 이미지-텍스트 데이터로부터 학습된 비전-언어 표현을 가진 사전 학습된 이미지-텍스트 모델(예: CLIP)은 강력한 다중모달 표현 능력을 보여주었다. 특히 이미지 표현의 풍부한 특징을 바탕으로, 일부 기존 연구들은 이미지 표현을 비디오 영역으로 전이하여 우수한 성능을 달성한 바 있다. 그러나 이미지-언어 사전 학습 모델(예: CLIP)을 비디오-언어 사전 학습(포스트 사전 학습)에 어떻게 활용할 수 있을지에 대한 연구는 여전히 미흡한 실정이다. 본 논문에서는 다음과 같은 두 가지 질문을 탐구한다: 1) CLIP의 포스트 사전 학습을 통해 비디오-언어 작업에서 성능을 더욱 향상시키는 데 걸림돌이 되는 요인은 무엇인가? 2) 이러한 요인의 영향을 어떻게 완화할 수 있는가? 일련의 비교 실험과 분석을 통해, 언어 데이터의 규모와 언어 소스 간의 도메인 갭이 큰 영향을 미친다는 것을 발견하였다. 이러한 발견을 바탕으로, CLIP 기반의 비디오 프록시(Video Proxy) 메커니즘을 갖춘 '오미소스 크로스모달 학습(Omnisource Cross-modal Learning)' 방법을 제안하며, 이를 CLIP-ViP라 명명한다. 광범위한 실험 결과는 제안한 방법이 CLIP의 비디오-텍스트 검색 성능을 크게 향상시킴을 보여주며, MSR-VTT, DiDeMo, LSMDC, ActivityNet 등 다양한 데이터셋에서 최신 기술(SOTA) 성능을 달성하였다. 코드 및 사전 학습된 CLIP-ViP 모델은 https://github.com/microsoft/XPretrain/tree/main/CLIP-ViP에서 공개할 예정이다.

CLIP-ViP: 사전 훈련된 이미지-텍스트 모델을 비디오-언어 표현 정렬에 적응시키기 | 최신 연구 논문 | HyperAI초신경