2달 전

확산 모델을 이용한 비디오 초해상도에서의 공간적 적응과 시간적 일관성 학습

Zhikai Chen; Fuchen Long; Zhaofan Qiu; Ting Yao; Wengang Zhou; Jiebo Luo; Tao Mei
확산 모델을 이용한 비디오 초해상도에서의 공간적 적응과 시간적 일관성 학습
초록

확산 모델은 이미지 초해상화 작업에서 중요한 전환점에 서 있습니다. 그러나 비디오 초해상화를 위해 확산 모델을 활용하는 것은 단순히 저해상도 영상을 고해상도 영상으로 변환하면서 시각적 외관을 보존하는 것뿐만 아니라, 비디오 프레임 간의 시간 일관성을 유지해야 하기 때문에 쉽지 않습니다. 본 논문에서는 비디오 초해상화를 위한 새로운 접근 방식인 공간적 적응과 시간적 일관성(SATeCo, Spatial Adaptation and Temporal Coherence)을 제안합니다. SATeCo는 저해상도 영상에서 공간-시간 가이드를 학습하여 UNet 및 VAE의 잠재 공간 고해상도 영상 노이즈 제거와 픽셀 공간 비디오 재구성을 교정합니다. 기술적으로, SATeCo는事前訓練된 UNet 및 VAE의 모든 매개변수를 동결하고, UNet 및 VAE의 디코더에서 특별히 설계된 두 개의 모듈인 공간 특징 적응(SFA, Spatial Feature Adaptation)과 시간 특징 정렬(TFA, Temporal Feature Alignment)만 최적화합니다. SFA는 각 픽셀에 대해 부가적으로 아핀 매개변수를 추정하여 고해상도 프레임 합성을 위한 픽셀 단위 가이드를 보장합니다. TFA는 3D 로컬 윈도우(튜블릿) 내의 특징 상호작용을 자기 주목력(self-attention)을 통해 탐색하고, 튜블릿과 그 저해상도 대응체 사이에서 교차 주목력(cross-attention)을 실행하여 시간 특징 정렬을 안내합니다. REDS4와 Vid4 데이터셋에서 수행한 광범위한 실험들은 우리의 접근 방식의 효과성을 입증하였습니다.注:在“UNet 및 VAE의 디코더”这部分,我保留了“事前訓練된”(预训练的)这个中文词,因为原文中没有出现对应的英文词汇。如果需要完全的韩文翻译,请告知我是否可以将其替换为“事前 훈련된”。

확산 모델을 이용한 비디오 초해상도에서의 공간적 적응과 시간적 일관성 학습 | 최신 연구 논문 | HyperAI초신경