2달 전

VLAB: 특성 적응 및 혼합을 통한 비디오 언어 사전 학습 향상

Xingjian He; Sihan Chen; Fan Ma; Zhicheng Huang; Xiaojie Jin; Zikang Liu; Dongmei Fu; Yi Yang; Jing Liu; Jiashi Feng
VLAB: 특성 적응 및 혼합을 통한 비디오 언어 사전 학습 향상
초록

대규모 이미지-텍스트 대조적 사전 학습 모델인 CLIP과 같은 모델들은 고품질의 다중 모드 표현을 효과적으로 학습할 수 있음을 입증하였습니다. 그러나 이러한 강력한 특성을 기반으로 일반적인 비디오 다중 모드 작업을 위한 비디오-텍스트 표현 학습에 대한 연구는 제한적이었습니다. 이 목표를 달성하기 위해, 우리는 VLAB(Video Language pre-training by feature Adapting and Blending)이라는 새로운 비디오-텍스트 사전 학습 방법을 제안합니다. VLAB은 CLIP 표현을 비디오 사전 학습 작업으로 전송하고, 다양한 비디오-텍스트 작업을 위한 통합된 비디오 다중 모드 모델을 개발합니다. 구체적으로, VLAB은 두 가지 주요 전략인 특성 적응(feature adapting)과 특성 혼합(feature blending)에 기반을 두고 있습니다. 첫 번째 전략에서, 우리는 CLIP이 시간 정보를 모델링하는 데 부족함을 해결하기 위해 새로운 비디오 어댑터 모듈을 도입하여, 모델의 능력을 대조적 작업과 생성적 작업 모두를 포함하도록 확장합니다. 두 번째 전략에서는 이미지와 비디오 특성의 보완성을 활용하여 모델의 성능을 더욱 향상시키는 엔드투엔드(end-to-end) 학습 방법을 제안합니다. 우리는 경쟁력 있는 비디오 다중 모드 작업들, 즉 비디오 텍스트 검색, 비디오 캡셔닝, 그리고 비디오 질문 응답 등에서 광범위한 실험을 통해 VLAB의 유효성과 유연성을 검증하였습니다. 특히, VLAB은 MSRVTT, MSVD, 그리고 TGIF 데이터셋에서 경쟁 방법들을 크게 앞서며 새로운 기록을 세웠습니다. 각각 49.6%, 61.0%, 79.0%의 정확도를 달성하였습니다. 코드와 모델은 공개될 예정입니다.