페나키: 개방형 텍스트 설명에서 변형 길이의 비디오 생성

우리는 텍스트 프롬프트 시퀀스를 입력받아 현실적인 영상을 합성할 수 있는 모델인 Phenaki를 제안한다. 텍스트에서 영상을 생성하는 작업은 계산 비용이 크고, 고품질의 텍스트-영상 데이터가 제한적이며, 영상의 길이가 변동되기 때문에 특히 도전적인 과제이다. 이러한 문제를 해결하기 위해, 영상을 작고 이산적인 토큰 표현으로 압축하는 새로운 영상 표현 학습 모델을 도입한다. 이 토크나이저는 시간 방향의 인과적 어텐션(causal attention)을 사용하여 길이가 다를 수 있는 영상에도 적용 가능하다. 텍스트로부터 영상 토큰을 생성하기 위해, 사전에 계산된 텍스트 토큰에 조건부로 작동하는 양방향 마스킹 트랜스포머(bidirectional masked transformer)를 활용한다. 생성된 영상 토큰은 이후 디토크나이저(de-tokenizer)를 통해 실제 영상으로 복원된다. 데이터 문제를 해결하기 위해, 대규모의 이미지-텍스트 쌍 데이터 코퍼스와 소규모의 영상-텍스트 예제를 함께 학습함으로써, 영상 데이터셋에 존재하는 내용을 넘어서는 일반화 성능을 달성할 수 있음을 보여준다. 기존의 영상 생성 방법들과 비교해 볼 때, Phenaki는 오픈 도메인에서 시계열적 텍스트(즉, 시간에 따라 변화하는 텍스트 또는 스토리) 시퀀스에 조건부로 임의의 길이의 영상을 생성할 수 있다. 현재까지의 지식에 따르면, 본 논문은 시간에 따라 변화하는 프롬프트로부터 영상을 생성하는 문제를 처음으로 다루는 연구이다. 또한, 프레임 단위 기준 모델들과 비교했을 때, 제안한 영상 인코더-디코더는 동일한 영상에 대해 더 적은 수의 토큰을 처리하지만, 더 뛰어난 시공간 일관성을 보인다.