8일 전

텍스트에서 비디오 생성을 위한 그리드 확산 모델

Taegyeong Lee, Soyeong Kwon, Taehwan Kim
텍스트에서 비디오 생성을 위한 그리드 확산 모델
초록

최근 디퓨전 모델의 발전으로 텍스트에서 이미지를 생성하는 기술이 크게 향상되었다. 그러나 텍스트에서 영상을 생성하는 것은 이미지 생성보다 훨씬 더 도전적인 과제이다. 그 이유는 더 큰 데이터셋과 더 높은 계산 비용이 필요하기 때문이다. 기존의 대부분의 영상 생성 방법은 시간 차원을 고려한 3D U-Net 아키텍처를 사용하거나, 자동회귀적 생성 방식을 채택하고 있다. 이러한 방법들은 대규모 데이터셋을 요구하며, 텍스트-이미지 생성에 비해 계산 비용 측면에서 제한이 크다. 이러한 문제를 해결하기 위해, 본 연구에서는 아키텍처 내에서 시간 차원을 고려하지 않고, 대규모 텍스트-영상 쌍 데이터셋을 사용하지 않는 간단하면서도 효과적인 새로운 그리드 디퓨전 기반 텍스트-영상 생성 방법을 제안한다. 제안한 방법은 영상을 격자 형태의 이미지로 표현함으로써, 프레임 수에 관계없이 고정된 GPU 메모리량만으로 고품질의 영상을 생성할 수 있다. 또한, 영상의 차원을 이미지의 차원으로 축소함으로써, 다양한 이미지 기반 기법을 영상에 적용할 수 있게 되며, 예를 들어 이미지 조작 기법을 기반으로 텍스트 유도 영상 조작이 가능하다. 제안한 방법은 정량적 및 정성적 평가 모두에서 기존 방법들을 능가하며, 실제 영상 생성에 적합한 모델의 가능성을 입증하였다.

텍스트에서 비디오 생성을 위한 그리드 확산 모델 | 최신 연구 논문 | HyperAI초신경