고해상도 프레임 보간을 위한 패치 기반 캐스케이드 확산

최근의 발전에도 불구하고, 기존의 프레임 보간 방법들은 극히 높은 해상도의 입력 처리와 반복적인 텍스처, 얇은 물체, 큰 움직임과 같은 어려운 사례를 처리하는 데 여전히 어려움을 겪고 있습니다. 이러한 문제들을 해결하기 위해, 우리는 고해상도 프레임 보간에서 우수한 성능을 발휘하면서 표준 벤치마크에서도 경쟁력 있는 성능을 달성하는 패치 기반 캐스케이드 픽셀 확산 모델인 HiFI를 소개합니다.캐스케이드는 저해상도에서 고해상도로 이미지 시리즈를 생성하여, 전역 컨텍스트를 필요로 하는 대략적인 솔루션과 고해상도 출력을 위한 상세한 컨텍스트 모두를 제공함으로써 큰 또는 복잡한 움직임에 크게 도움이 됩니다. 그러나 이전의 캐스케이드 확산 모델 연구에서는 점점 더 큰 해상도에서 확산을 수행하는 반면, 우리는 항상 동일한 해상도에서 확산을 수행하고 입력과 이전 솔루션의 패치를 처리하여 업샘플링을 수행하는 단일 모델을 사용합니다. 추론 시에는 이 방식이 메모리 사용량을 크게 줄이고 프레임 보간(기본 모델의 작업)과 공간적 업샘플링을 동시에 해결할 수 있어 훈련 비용도 절약할 수 있습니다.HiFI는 고해상도 이미지와 전역 컨텍스트가 필요한 복잡한 반복 텍스처에서 뛰어난 성능을 발휘하며, Vimeo, Xiph, X-Test 및 SEPE-8K 등 다양한 벤치마크에서 유사하거나 최고 수준의 성능을 달성했습니다. 또한 우리는 특히 어려운 사례에 초점을 맞춘 새로운 데이터셋인 LaMoR(Large Motion and Repetitive Textures)를 소개하며, HiFI는 다른 기준 모델들보다 크게 우수한 성능을 보였습니다. 비디오 결과물은 프로젝트 페이지에서 확인하실 수 있습니다: https://hifi-diffusion.github.io