
초록
최근 디퓨전 모델의 발전으로 텍스트에서 이미지를 생성하는 기술이 크게 향상되었다. 그러나 텍스트에서 영상을 생성하는 것은 이미지 생성보다 훨씬 더 도전적인 과제이다. 그 이유는 더 큰 데이터셋과 더 높은 계산 비용이 필요하기 때문이다. 기존의 대부분의 영상 생성 방법은 시간 차원을 고려한 3D U-Net 아키텍처를 사용하거나, 자동회귀적 생성 방식을 채택하고 있다. 이러한 방법들은 대규모 데이터셋을 요구하며, 텍스트-이미지 생성에 비해 계산 비용 측면에서 제한이 크다. 이러한 문제를 해결하기 위해, 본 연구에서는 아키텍처 내에서 시간 차원을 고려하지 않고, 대규모 텍스트-영상 쌍 데이터셋을 사용하지 않는 간단하면서도 효과적인 새로운 그리드 디퓨전 기반 텍스트-영상 생성 방법을 제안한다. 제안한 방법은 영상을 격자 형태의 이미지로 표현함으로써, 프레임 수에 관계없이 고정된 GPU 메모리량만으로 고품질의 영상을 생성할 수 있다. 또한, 영상의 차원을 이미지의 차원으로 축소함으로써, 다양한 이미지 기반 기법을 영상에 적용할 수 있게 되며, 예를 들어 이미지 조작 기법을 기반으로 텍스트 유도 영상 조작이 가능하다. 제안한 방법은 정량적 및 정성적 평가 모두에서 기존 방법들을 능가하며, 실제 영상 생성에 적합한 모델의 가능성을 입증하였다.