16일 전

GODIVA: 자연어 설명에서 오픈 도메인 비디오 생성하기

Chenfei Wu, Lun Huang, Qianxi Zhang, Binyang Li, Lei Ji, Fan Yang, Guillermo Sapiro, Nan Duan
GODIVA: 자연어 설명에서 오픈 도메인 비디오 생성하기
초록

텍스트로부터 영상을 생성하는 것은 학습에 높은 계산 자원이 요구되며, 평가 시 무한한 가능한 결과가 존재하기 때문에 도전적인 과제이다. 기존의 연구들은 일반적으로 단순하거나 소규모 데이터셋에서 실험을 수행하여 일반화 능력이 매우 제한적인 경향이 있다. 본 연구에서는 3차원 희소 어텐션 메커니즘을 사용하여 텍스트를 자동 회귀 방식으로 영상으로 생성할 수 있는 오픈 도메인 텍스트-영상 사전 학습 모델인 GODIVA를 제안한다. 우리는 이 모델을 136백만 개 이상의 텍스트-영상 쌍을 포함하는 대규모 텍스트-영상 데이터셋인 Howto100M에서 사전 학습하였다. 실험 결과 GODIVA는 하류 영상 생성 작업에 대해 미세 조정(fine-tuning)이 가능할 뿐만 아니라, 미리 보지 않은 텍스트에 대해서도 우수한 제로샷(zero-shot) 능력을 보였다. 또한 영상 생성 품질을 자동으로 평가하기 위해 새로운 지표인 상대적 매칭(Relative Matching, RM)을 제안하였다. 향후 연구 과제로 몇 가지 도전 과제를 제시하고 논의하였다.

GODIVA: 자연어 설명에서 오픈 도메인 비디오 생성하기 | 최신 연구 논문 | HyperAI초신경