16일 전

Show-1: 텍스트에서 비디오 생성을 위한 픽셀과 잠재 확산 모델의 결합

Zhang, David Junhao, Wu, Jay Zhangjie, Liu, Jia-Wei, Zhao, Rui, Ran, Lingmin, Gu, Yuchao, Gao, Difei, Shou, Mike Zheng
Show-1: 텍스트에서 비디오 생성을 위한 픽셀과 잠재 확산 모델의 결합
초록

대규모 사전 훈련된 텍스트-비디오 확산 모델(VDM) 분야에서 중요한 진전이 이루어졌다. 그러나 기존의 방법들은 either 픽셀 기반 VDM에만 의존하여 높은 계산 비용을 초래하거나, 또는 잠재 공간 기반 VDM에 의존하여 텍스트-비디오 정확한 정렬이 어려운 경우가 많았다. 본 논문에서는 텍스트-비디오 생성을 위해 픽셀 기반과 잠재 공간 기반 VDM을 결합하는 하이브리드 모델인 Show-1을 최초로 제안한다. 본 모델은 먼저 텍스트-비디오 간 강한 연관성을 갖는 저해상도 비디오를 픽셀 기반 VDM을 통해 생성한다. 이후, 저해상도 비디오를 고해상도로 더욱 확대하면서 잠재 공간 기반 VDM을 활용하는 새로운 전문가 변환 기법을 제안한다. 이 기법은 저해상도 비디오에서 발생할 수 있는 잡음 및 왜곡을 제거하는 데도 효과적이다. 잠재 공간 기반 VDM과 비교했을 때, Show-1은 텍스트-비디오 정렬이 정밀한 고품질 비디오를 생성할 수 있으며, 픽셀 기반 VDM과 비교하면 훨씬 더 효율적이다(추론 시 GPU 메모리 사용량은 15G 대비 72G). 더불어, Show-1 모델은 단순한 시계열 주의(attention) 레이어의 미세조정을 통해 운동 커스터마이징 및 비디오 스타일화 응용에 쉽게 적용 가능하다. 본 모델은 표준 비디오 생성 벤치마크에서 최신 기준 성능을 달성하였다. 코드 및 모델 가중치는 공개적으로 https://github.com/showlab/Show-1 에서 제공된다.

Show-1: 텍스트에서 비디오 생성을 위한 픽셀과 잠재 확산 모델의 결합 | 최신 연구 논문 | HyperAI초신경