7일 전

비디오 예측 및 인필링을 위한 확산 모델

Tobias Höppe, Arash Mehrjou, Stefan Bauer, Didrik Nielsen, Andrea Dittadi
비디오 예측 및 인필링을 위한 확산 모델
초록

미래의 결과를 예측하거나 시계열 데이터에서 누락된 정보에 대해 추론하는 능력은 에이전트가 지능적인 결정을 내리기 위해 필수적인 기술입니다. 이러한 능력은 강력하고 시간적으로 일관된 생성 능력을 요구합니다. 확산 모델은 여러 생성 과제에서 뛰어난 성과를 보여주었지만, 영상 분야에서는 아직 널리 탐색되지 않았습니다. 본 연구에서는 3D 컨볼루션을 사용하여 이미지 확산 모델을 영상에 확장하고, 학습 과정에서 새로운 조건부 기반 기법을 도입한 Random-Mask Video Diffusion (RaMViD)을 제안합니다. 조건부 입력으로 사용하는 마스크를 다양하게 조절함으로써, 모델은 영상 예측, 누락 영상 보정(infilling), 그리고 해상도 증강(upsampling) 등 다양한 작업을 수행할 수 있습니다. 본 연구에서 제안하는 간단한 조건부 기반 방식 덕분에, 무조건적 학습에서 사용한 동일한 아키텍처를 그대로 활용할 수 있어, 조건부 및 무조건적 학습을 동시에 수행할 수 있습니다. RaMViD는 영상 예측을 위한 두 가지 벤치마크 데이터셋과 영상 생성을 위한 하나의 데이터셋에서 평가되었으며, 모두 최신 기준(SOTA) 성능을 달성하였습니다. 고해상도 영상 예시는 https://sites.google.com/view/video-diffusion-prediction 에서 확인할 수 있습니다.

비디오 예측 및 인필링을 위한 확산 모델 | 최신 연구 논문 | HyperAI초신경