7일 전
마스크된 시각 모델링을 활용한 엔드투엔드 비디오-언어 트랜스포머에 대한 실증적 연구
Tsu-Jui Fu, Linjie Li, Zhe Gan, Kevin Lin, William Yang Wang, Lijuan Wang, Zicheng Liu

초록
마스크된 시각 모델링(Masked Visual Modeling, MVM)은 최근 시각 사전 훈련에 효과적임이 입증되었다. 비디오 입력에 대한 유사한 재구성 목적(예: 마스크된 프레임 모델링)은 비디오-언어(VidL) 사전 훈련에서 탐구되었지만, 이전 연구들은 하류 작업 성능을 크게 향상시킬 수 있는 진정으로 효과적인 MVM 전략을 찾지 못했다. 본 연구에서는 VidL 학습 맥락에서 MVM의 잠재력을 체계적으로 탐구한다. 구체적으로, MVM 훈련에서의 감독 신호가 비디오 픽셀 공간으로 역전파될 수 있는 완전한 엔드투엔드 VIdeO-LanguagE Transformer(VIOLET)를 기반으로 연구를 진행한다. 총 여덟 가지의 다양한 재구성 목표를 탐색하였으며, 저수준의 픽셀 값과 방향성 기울기에서부터 고수준의 깊이 맵, 광학 흐름, 이산 시각 토큰, 잠재 시각 특징에 이르기까지 다양하다. 광범위한 실험을 수행하고 효과적인 MVM 훈련을 이끄는 요인들을 분석함으로써 개선된 모델인 VIOLETv2를 도출하였다. 실험 결과, MVM 목적함수로 사전 훈련된 VIOLETv2는 영상 질의응답, 영상 캡션 생성, 텍스트-비디오 검색에 이르는 13개의 VidL 벤치마크에서 두드러진 성능 향상을 보였다.