Command Palette
Search for a command to run...
Jihwan Kim Junoh Kang Jinyoung Choi Bohyung Han

초록
텍스트 조건부 영상 생성을 위한 사전 학습된 확산 모델 기반의 새로운 추론 기법을 제안한다. 제안하는 방법은 FIFO-Diffusion이라 명명되며, 학습 없이도 무한한 길이의 영상을 생성할 수 있는 개념적 가능성을 지닌다. 이는 큐 내에서 증가하는 노이즈 수준을 가진 연속된 프레임들을 반복적으로 대각선 방향으로 노이즈 제거하는 방식으로 달성된다. 본 방법은 앞부분(head)에서 완전히 노이즈 제거된 프레임을 디큐(queue에서 제거)하고, 뒷부분(tail)에 새로운 무작위 노이즈 프레임을 인큐(queue에 추가)함으로써 동작한다. 그러나 대각선 노이즈 제거는 이중적인 성격을 지닌다. 꼬리 쪽의 프레임은 앞쪽의 더 깨끗한 프레임을 향후 참조(foward reference)를 통해 활용할 수 있으나, 이는 학습과 추론 간의 불일치를 초래한다. 이를 해결하기 위해 우리는 학습-추론 간 격차를 줄이기 위한 잠재 공간 분할(latent partitioning)과 향후 참조의 이점을 활용하기 위한 전망 노이즈 제거(lookahead denoising)를 도입한다. 제안된 방법들이 기존의 텍스트-영상 생성 베이스라인에서 유망한 성과와 효과성을 입증하였다.
코드 저장소
jjihwan/FIFO-Diffusion_public
공식
pytorch
GitHub에서 언급됨
벤치마크
| 벤치마크 | 방법론 | 지표 |
|---|---|---|
| video-generation-on-ucf-101 | FIFO-Diffusion | FVD128: 596.64 Inception Score: 74.44 |