
초록
자연 이미지 생성 모델은 규모를 적극적으로 활용하여 고정밀 샘플을 생성하는 데 큰 발전을 이룩하였습니다. 우리는 이러한 성공을 비디오 모델링 분야로 확장하고자 하며, 복잡한 Kinetics-600 데이터셋에서 훈련된 대규모 생성적 적대 네트워크(Generative Adversarial Networks)가 이전 연구보다 훨씬 더 복잡하고 고정밀한 비디오 샘플을 생성할 수 있음을 보여드립니다. 제안된 모델인 듀얼 비디오 판별기 GAN (Dual Video Discriminator GAN, DVD-GAN)은 계산 효율적인 판별기 분해를 활용하여 더 긴 시간과 더 높은 해상도의 비디오에 확장됩니다. 우리는 비디오 합성 및 비디오 예측 관련 작업에서 평가를 수행하였으며, Kinetics-600 데이터셋에서 예측에 대한 새로운 최고의 Fréchet Inception Distance(FID) 점수와 UCF-101 데이터셋에서 합성에 대한 최고의 Inception Score를 달성하였습니다. 또한 Kinetics-600 데이터셋에서 합성 작업에 대한 강력한 기준선을 설정하였습니다.