9일 전

대규모 비디오 번역을 통한 고해상도 비디오-언어 표현 발전

Hongwei Xue, Tiankai Hang, Yanhong Zeng, Yuchong Sun, Bei Liu, Huan Yang, Jianlong Fu, Baining Guo
대규모 비디오 번역을 통한 고해상도 비디오-언어 표현 발전
초록

우리는 다중 모달리티 학습을 가능하게 하고 다양한 후속 시각-언어(VL) 작업에 기여하기 위해 영상과 언어의 공동 사전 학습(joint video and language, VL)을 연구한다. 기존 연구들은 낮은 품질의 영상 특징을 추출하거나 제한된 텍스트 임베딩을 학습하는 경향이 있으며, 고해상도 영상과 다양한 의미 표현이 다중 모달리티 학습에 크게 기여할 수 있다는 점을 간과하고 있다. 본 논문에서는 다양한 시각 작업을 위한 새로운 고해상도 및 다각적 영상-언어 사전 학습 모델(High-resolution and Diversified VIdeo-LAnguage pre-training model, HD-VILA)을 제안한다. 특히, 두 가지 독특한 특성을 갖춘 대규모 데이터셋을 수집하였다: 1) 371.5천 시간의 720p 고해상도 영상이 포함된 최초의 고해상도 데이터셋, 그리고 2) 유튜브의 15개 주요 카테고리를 아우르는 가장 다양한 데이터셋. VL 사전 학습을 가능하게 하기 위해, 풍부한 시공간 특징을 학습하는 하이브리드 트랜스포머와 학습된 영상 특징과 다양한 텍스트 간의 상호작용을 강제하는 다중 모달 트랜스포머를 공동 최적화하여 HD-VILA 모델을 구축하였다. 제안된 사전 학습 모델은 10개의 VL 이해 작업과 2개의 새로운 텍스트-시각 생성 작업에서 최신 기준(SOTA)을 초과하는 성능을 달성하였다. 예를 들어, 제로샷 MSR-VTT 텍스트-영상 검색 작업에서 SOTA 모델 대비 R@1 지표에서 40.4%의 상대적 향상과 고해상도 데이터셋 LSMDC에서 55.4%의 상대적 향상을 기록하였다. 또한, 학습된 VL 임베딩은 텍스트-시각 편집 및 초해상도 복원 작업에서 시각적으로 매력적이고 의미적으로 관련성 있는 결과를 효과적으로 생성하는 데에도 유용하다.