2달 전

소수 샷 비디오-비디오 합성

Ting-Chun Wang; Ming-Yu Liu; Andrew Tao; Guilin Liu; Jan Kautz; Bryan Catanzaro
소수 샷 비디오-비디오 합성
초록

비디오-투-비디오 합성(vid2vid)은 인간의 자세나 분할 마스크 등의 입력 의미 비디오를 출력 광학적 비디오로 변환하는 것을 목표로 합니다. vid2vid의 최신 기술이 크게 발전했음에도 불구하고, 기존 접근 방식들은 두 가지 주요 제한점을 공유하고 있습니다. 첫째, 이들은 데이터에 매우 의존적입니다. 대상 인간 주체나 장면의 수많은 이미지가 훈련을 위해 필요합니다. 둘째, 학습된 모델의 일반화 능력이 제한적입니다. 자세-인간 vid2vid 모델은 훈련 세트에 있는 단일 사람의 자세만 합성할 수 있으며, 훈련 세트에 없는 다른 사람들에게는 일반화되지 않습니다. 이러한 제한점을 해결하기 위해, 우리는 테스트 시점에서 대상의 몇 개 예제 이미지를 활용하여 이전에 본 적 없는 주체나 장면의 비디오를 합성하는 소수 샷 vid2vid 프레임워크를 제안합니다. 우리의 모델은 새로운 네트워크 가중치 생성 모듈(attention mechanism)을 사용하여 이 소수 샷 일반화 능력을 달성합니다. 우리는 인간 춤추기 비디오, 말하는 얼굴 비디오, 도시 장면 비디오 등을 포함하는 여러 대규모 비디오 데이터셋을 사용하여 강력한 베이스라인과 비교하며 광범위한 실험 검증을 수행했습니다. 실험 결과는 제안된 프레임워크가 기존 vid2vid 접근 방식들의 두 가지 제한점을 해결하는 데 효과적이음을 확인해주었습니다.

소수 샷 비디오-비디오 합성 | 최신 연구 논문 | HyperAI초신경