7일 전

기반 변환(adversarial) 비디오 예측: 대규모 데이터에서의 적용

Pauline Luc, Aidan Clark, Sander Dieleman, Diego de Las Casas, Yotam Doron, Albin Cassirer, Karen Simonyan
기반 변환(adversarial) 비디오 예측: 대규모 데이터에서의 적용
초록

최근 적대적 생성 모델링 분야의 돌파구는 실제 영상의 대규모이고 복잡한 데이터셋에서도 고품질의 영상 샘플을 생성할 수 있는 모델의 등장을 가능하게 했다. 본 연구에서는 영상 예측이라는 과제에 초점을 맞춘다. 즉, 영상에서 추출한 프레임 시퀀스를 입력으로 받아, 그 이후에 발생할 수 있는 타당한 프레임 시퀀스를 생성하는 것을 목표로 한다. 먼저, 판별기 분해(discriminator decomposition)에 대한 체계적인 실험적 연구를 수행하여, 기존 방법보다 빠른 수렴 속도와 높은 성능을 보이는 새로운 아키텍처를 제안한다. 이후 생성기 내의 순환 단위(recurrent unit)를 분석하고, 예측된 운동 유사 특징에 따라 과거의 은닉 상태를 변환하고, 불일치(occlusion) 및 장면 변화와 같은 복잡한 행동을 처리하기 위해 이를 정밀하게 보정하는 새로운 순환 단위를 제안한다. 제안된 순환 단위가 기존 설계들보다 일관되게 우수한 성능을 보임을 실험적으로 입증한다. 최종적으로 제안된 모델은 기존의 최고 성능을 크게 뛰어넘으며, 대규모 Kinetics-600 데이터셋에서 테스트 세트의 프레셰 영상 거리(Frechet Video Distance, FVD)를 69.2에서 25.7로 감소시켜, 영상 예측 분야의 새로운 기준을 수립하였다.

기반 변환(adversarial) 비디오 예측: 대규모 데이터에서의 적용 | 최신 연구 논문 | HyperAI초신경