8일 전

자신의 상관관계를 보존하라: 영상 확산 모델을 위한 노이즈 사전

Songwei Ge, Seungjun Nah, Guilin Liu, Tyler Poon, Andrew Tao, Bryan Catanzaro, David Jacobs, Jia-Bin Huang, Ming-Yu Liu, Yogesh Balaji
자신의 상관관계를 보존하라: 영상 확산 모델을 위한 노이즈 사전
초록

확산 모델을 활용한 고품질 이미지 생성 분야에서 막대한 진전이 있었음에도 불구하고, 사진처럼 사실적이고 시간적으로 일관성 있는 애니메이션 프레임 시퀀스를 생성하는 것은 여전히 초기 단계에 머물러 있다. 이미지 생성을 위한 수십억 규모의 사전 구축 데이터셋은 이미 보편적으로 존재하지만, 동일한 규모의 동영상 데이터를 수집하는 것은 여전히 도전 과제다. 게다가 동영상 확산 모델을 훈련시키는 것은 이미지 모델에 비해 계산 비용이 훨씬 더 크다. 본 연구에서는 동영상 생성 과제에 대한 실용적인 해결책으로, 사전 훈련된 이미지 확산 모델을 동영상 데이터로 미세조정하는 방식을 탐구한다. 우리는 단순히 이미지 노이즈 사전(Noise Prior)을 동영상 노이즈 사전으로 확장하는 방식은 최적의 성능을 도출하지 못함을 발견하였다. 이에 따라 철저히 설계된 동영상 노이즈 사전은 상당히 향상된 성능을 제공한다. 광범위한 실험 검증을 통해, 본 모델인 Preserve Your Own Correlation (PYoCo)가 UCF-101 및 MSR-VTT 벤치마크에서 SOTA(SOTA, State-of-the-art) 수준의 제로샷 텍스트-동영상 생성 성능을 달성함을 입증하였다. 또한, 기존 기술보다 10배 작고, 훨씬 더 적은 계산 자원을 사용함에도 불구하고, 소규모 UCF-101 벤치마크에서 동영상 생성 품질 측면에서 SOTA 성능을 달성하였다.

자신의 상관관계를 보존하라: 영상 확산 모델을 위한 노이즈 사전 | 최신 연구 논문 | HyperAI초신경