16일 전

GODIVA: 자연어 설명에서 오픈 도메인 비디오 생성하기

Chenfei Wu, Lun Huang, Qianxi Zhang, Binyang Li, Lei Ji, Fan Yang, Guillermo Sapiro, Nan Duan

초록

텍스트로부터 영상을 생성하는 것은 학습에 높은 계산 자원이 요구되며, 평가 시 무한한 가능한 결과가 존재하기 때문에 도전적인 과제이다. 기존의 연구들은 일반적으로 단순하거나 소규모 데이터셋에서 실험을 수행하여 일반화 능력이 매우 제한적인 경향이 있다. 본 연구에서는 3차원 희소 어텐션 메커니즘을 사용하여 텍스트를 자동 회귀 방식으로 영상으로 생성할 수 있는 오픈 도메인 텍스트-영상 사전 학습 모델인 GODIVA를 제안한다. 우리는 이 모델을 136백만 개 이상의 텍스트-영상 쌍을 포함하는 대규모 텍스트-영상 데이터셋인 Howto100M에서 사전 학습하였다. 실험 결과 GODIVA는 하류 영상 생성 작업에 대해 미세 조정(fine-tuning)이 가능할 뿐만 아니라, 미리 보지 않은 텍스트에 대해서도 우수한 제로샷(zero-shot) 능력을 보였다. 또한 영상 생성 품질을 자동으로 평가하기 위해 새로운 지표인 상대적 매칭(Relative Matching, RM)을 제안하였다. 향후 연구 과제로 몇 가지 도전 과제를 제시하고 논의하였다.