3달 전

FIFO-Diffusion: 훈련 없이 텍스트에서 무한한 비디오 생성하기

Jihwan Kim Junoh Kang Jinyoung Choi Bohyung Han

초록

텍스트 조건부 영상 생성을 위한 사전 학습된 확산 모델 기반의 새로운 추론 기법을 제안한다. 제안하는 방법은 FIFO-Diffusion이라 명명되며, 학습 없이도 무한한 길이의 영상을 생성할 수 있는 개념적 가능성을 지닌다. 이는 큐 내에서 증가하는 노이즈 수준을 가진 연속된 프레임들을 반복적으로 대각선 방향으로 노이즈 제거하는 방식으로 달성된다. 본 방법은 앞부분(head)에서 완전히 노이즈 제거된 프레임을 디큐(queue에서 제거)하고, 뒷부분(tail)에 새로운 무작위 노이즈 프레임을 인큐(queue에 추가)함으로써 동작한다. 그러나 대각선 노이즈 제거는 이중적인 성격을 지닌다. 꼬리 쪽의 프레임은 앞쪽의 더 깨끗한 프레임을 향후 참조(foward reference)를 통해 활용할 수 있으나, 이는 학습과 추론 간의 불일치를 초래한다. 이를 해결하기 위해 우리는 학습-추론 간 격차를 줄이기 위한 잠재 공간 분할(latent partitioning)과 향후 참조의 이점을 활용하기 위한 전망 노이즈 제거(lookahead denoising)를 도입한다. 제안된 방법들이 기존의 텍스트-영상 생성 베이스라인에서 유망한 성과와 효과성을 입증하였다.

코드 저장소

jjihwan/FIFO-Diffusion_public

공식

pytorch

GitHub에서 언급됨

벤치마크

벤치마크	방법론	지표
video-generation-on-ucf-101	FIFO-Diffusion	FVD128: 596.64 Inception Score: 74.44

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette