Command Palette
Search for a command to run...

초록
지속 공간 기반 영상 생성 기술은 급속도로 발전하고 있으나, 오차 누적 및 장기적 문맥 일관성 문제로 인해 이산적 접근법은 뒤처져 있다. 본 연구에서는 이산 생성 모델링을 재검토하고, 연속적 접근법과의 격차를 해소할 수 있는 간단하면서도 강력한 프레임워크인 '메트릭 경로를 갖춘 균일한 이산 확산(Urban Discrete Diffusion with Metric Path, URSA)'을 제안한다. URSA는 확장 가능한 영상 생성을 위해 연속적 접근법과의 격차를 좁히는 데 초점을 맞추고 있다. 핵심적으로 URSA는 영상 생성 과정을 이산 시공간 토큰에 대한 반복적 전역 정제 문제로 정의한다. 이 프레임워크는 두 가지 핵심 설계를 통합한다: 선형화된 메트릭 경로(Linearized Metric Path)와 해상도에 따라 조정되는 타임스텝 이동 메커니즘(Resolution-dependent Timestep Shifting mechanism). 이러한 설계는 고해상도 이미지 합성과 장시간 영상 생성에 대해 효율적으로 확장 가능하며, 추론 단계 수를 크게 줄일 수 있다. 또한, 단일 모델 내에서 다양한 작업(예: 보간, 이미지-영상 생성 등)을 통합할 수 있는 비동기적 시계열 미세조정 전략을 도입하였다. 도전적인 영상 및 이미지 생성 벤치마크에서 실시한 광범위한 실험 결과, URSA는 기존의 이산적 방법들을 일관되게 능가하며, 최첨단 연속 확산 방법과 비견할 수 있는 성능을 달성하였다. 코드 및 모델은 https://github.com/baaivision/URSA 에서 공개되어 있다.