Command Palette
Search for a command to run...
비디오 생성을 위한 균일한 이산 확산과 메트릭 경로
비디오 생성을 위한 균일한 이산 확산과 메트릭 경로
초록
지속 공간 기반 영상 생성 기술은 급속도로 발전하고 있으나, 오차 누적 및 장기적 문맥 일관성 문제로 인해 이산적 접근법은 뒤처져 있다. 본 연구에서는 이산 생성 모델링을 재검토하고, 연속적 접근법과의 격차를 해소할 수 있는 간단하면서도 강력한 프레임워크인 '메트릭 경로를 갖춘 균일한 이산 확산(Urban Discrete Diffusion with Metric Path, URSA)'을 제안한다. URSA는 확장 가능한 영상 생성을 위해 연속적 접근법과의 격차를 좁히는 데 초점을 맞추고 있다. 핵심적으로 URSA는 영상 생성 과정을 이산 시공간 토큰에 대한 반복적 전역 정제 문제로 정의한다. 이 프레임워크는 두 가지 핵심 설계를 통합한다: 선형화된 메트릭 경로(Linearized Metric Path)와 해상도에 따라 조정되는 타임스텝 이동 메커니즘(Resolution-dependent Timestep Shifting mechanism). 이러한 설계는 고해상도 이미지 합성과 장시간 영상 생성에 대해 효율적으로 확장 가능하며, 추론 단계 수를 크게 줄일 수 있다. 또한, 단일 모델 내에서 다양한 작업(예: 보간, 이미지-영상 생성 등)을 통합할 수 있는 비동기적 시계열 미세조정 전략을 도입하였다. 도전적인 영상 및 이미지 생성 벤치마크에서 실시한 광범위한 실험 결과, URSA는 기존의 이산적 방법들을 일관되게 능가하며, 최첨단 연속 확산 방법과 비견할 수 있는 성능을 달성하였다. 코드 및 모델은 https://github.com/baaivision/URSA 에서 공개되어 있다.