8일 전
긴 영상의 유연한 확산 모델링
William Harvey, Saeid Naderiparizi, Vaden Masrani, Christian Weilbach, Frank Wood

초록
우리는 다양한 현실 환경에서 장시간 동안의 비디오를 완성하는 데 사용할 수 있는, 노이즈 제거 확산 확률 모델 기반의 비디오 모델링 프레임워크를 제안한다. 본 연구에서는 테스트 시점에서 어떤 부분의 비디오 프레임도 다른 부분의 프레임에 조건을 두고 임의의 부분을 샘플링할 수 있는 생성 모델을 도입하고, 이 목적에 적합한 아키텍처를 제안한다. 이를 통해 장시간 비디오의 프레임을 샘플링하는 순서에 대한 다양한 스케줄을 효율적으로 비교하고 최적화하며, 이미 샘플링된 프레임에 대해 선택적이고 희소하며 장거리 조건부 조건을 적용할 수 있다. 우리는 여러 데이터셋에서 기존 연구 대비 개선된 비디오 모델링 성능을 입증하였으며, 길이가 25분이 넘는 시간적으로 일관성 있는 비디오를 생성하였다. 또한, 자율 주행 시뮬레이터인 CARLA에서 생성된 비디오를 기반으로 한 새로운 비디오 모델링 데이터셋과 의미 있는 의미론적 메트릭을 함께 공개한다.