16일 전
ModelScope 텍스트-비디오 기술 보고서
Jiuniu Wang, Hangjie Yuan, Dayou Chen, Yingya Zhang, Xiang Wang, Shiwei Zhang

초록
이 논문은 텍스트-to-이미지 합성 모델(예: Stable Diffusion)에서 발전한 텍스트-to-비디오 합성 모델인 ModelScopeT2V를 소개한다. ModelScopeT2V는 일관된 프레임 생성과 부드러운 움직임 전이를 보장하기 위해 시공간 블록(spatio-temporal blocks)을 통합하였다. 모델은 학습 및 추론 과정에서 다양한 프레임 수에 적응할 수 있어, 이미지-텍스트 및 비디오-텍스트 데이터셋 모두에 적합하다. ModelScopeT2V는 VQGAN, 텍스트 인코더, 그리고 노이즈 제거 UNet의 세 가지 구성 요소로 이루어져 있으며, 총 17억 개의 파라미터를 갖추고 있으며, 그중 5억 개의 파라미터가 시간적 능력에 전용되어 있다. 이 모델은 세 가지 평가 지표에서 최신 기술(SOTA) 수준의 방법들에 비해 우수한 성능을 보였다. 코드와 온라인 데모는 \url{https://modelscope.cn/models/damo/text-to-video-synthesis/summary}에서 제공된다.