8일 전

Lumiere: 영상 생성을 위한 공간-시간 확산 모델

Omer Bar-Tal, Hila Chefer, Omer Tov, Charles Herrmann, Roni Paiss, Shiran Zada, Ariel Ephrat, Junhwa Hur, Guanghui Liu, Amit Raj, Yuanzhen Li, Michael Rubinstein, Tomer Michaeli, Oliver Wang, Deqing Sun, Tali Dekel, Inbar Mosseri
Lumiere: 영상 생성을 위한 공간-시간 확산 모델
초록

우리는 현실적이고 다양한 움직임을 표현하며 일관성 있는 영상을 생성할 수 있도록 설계된 텍스트-비디오 확산 모델인 Lumiere를 소개한다. 이는 비디오 합성 분야에서 핵심적인 과제인 시간적 일관성 확보에 초점을 맞추고 있다. 이를 위해 우리는 단일 모델 통과를 통해 영상 전체 시간 길이를 한 번에 생성하는 공간-시간 U-넷(Space-Time U-Net) 아키텍처를 제안한다. 기존의 비디오 생성 모델은 멀리 떨어진 핵심 프레임을 먼저 생성한 후 시간 방향 초해상도 증강(temporal super-resolution)을 수행하는 방식을 사용하는데, 이는 전반적인 시간적 일관성을 달성하기 어렵게 만드는 본질적인 한계를 지닌다. 반면, 공간적 및 특히 시간적 다운샘플링과 업샘플링을 병행 적용하고, 사전 훈련된 텍스트-이미지 확산 모델을 활용함으로써, 본 모델은 다중 공간-시간 스케일에서 입력을 처리하여 전체 프레임 레이트의 저해상도 영상을 직접 생성하는 능력을 습득한다. 우리는 최신 기술 수준의 텍스트-비디오 생성 성능을 입증하였으며, 이미지-비디오 변환, 비디오 인페인팅, 스타일화된 생성 등 다양한 콘텐츠 생성 및 영상 편집 작업에 쉽게 적용 가능함을 보여준다.

Lumiere: 영상 생성을 위한 공간-시간 확산 모델 | 최신 연구 논문 | HyperAI초신경