2달 전

비디오-비디오 합성

Ting-Chun Wang; Ming-Yu Liu; Jun-Yan Zhu; Guilin Liu; Andrew Tao; Jan Kautz; Bryan Catanzaro
비디오-비디오 합성
초록

우리는 비디오-비디오 합성 문제를 연구합니다. 이 문제의 목표는 입력 소스 비디오(예: 의미 분할 마스크 시퀀스)에서 출력된 사진처럼 실제적인 비디오로 정확히 소스 비디오의 내용을 묘사하는 매핑 함수를 학습하는 것입니다. 이미지 대응 문제인 이미지-이미지 합성 문제는 인기 있는 주제이지만, 비디오-비디오 합성 문제는 문헌에서 덜 탐구되어 왔습니다. 시간적 동역학을 이해하지 못하면, 기존의 이미지 합성 접근법을 입력 비디오에 직접 적용하면 종종 시각적으로 품질이 낮고 시간적으로 일관성이 없는 비디오가 생성됩니다. 본 논문에서는 생성적 적대학습 프레임워크 하에서 새로운 비디오-비디오 합성 접근법을 제안합니다. 신중하게 설계된 생성자와 판별자의 구조 및 공간-시간 적대 목적함수를 통해, 세그멘테이션 마스크, 스케치, 포즈 등 다양한 입력 형식에 대해 고해상도, 사진처럼 실제적인, 시간적으로 일관된 비디오 결과를 달성하였습니다. 여러 벤치마크 실험은 우리의 방법이 강력한 기준모델들에 비해 우위임을 보여줍니다. 특히, 우리의 모델은 최대 30초 길이의 거리 장면 2K 해상도 비디오를 합성할 수 있으며, 이는 비디오 합성 분야의 최신 기술을 크게 발전시킵니다. 마지막으로, 우리는 미래 비디오 예측에 우리의 접근법을 적용하여 여러 최신 경쟁 시스템들을 능가하였습니다.

비디오-비디오 합성 | 최신 연구 논문 | HyperAI초신경