FitVid: 픽셀 수준 비디오 예측에서의 과적합

다음과 같은 미래를 예측할 수 있는 능력을 갖춘 에이전트는 추가 학습 없이도 계획을 통해 다양한 작업을 수행할 수 있다. 또한 이러한 에이전트는 현실 세계의 복잡한 동역학을 내부적으로 표현할 수 있으므로, 다양한 시각 인지 작업에 유용한 표현을 습득할 수 있다. 이로 인해 관측된 과거와 가능성이 있는 미래의 행동을 조건으로 삼아 비디오의 미래 프레임을 예측하는 것은 여전히 매우 도전적인 흥미로운 과제로 남아 있다. 최근의 많은 기술적 진보에도 불구하고 말이다. 기존의 비디오 예측 모델들은 단순한 좁은 벤치마크에서는 유망한 성과를 보였지만, 더 복잡한 동역학이나 광범위한 도메인을 가진 실제 생활 데이터셋에서는 낮은 품질의 예측을 생성한다. 최근의 증거들은 훈련 데이터에 대한 과소적합(underfitting)이 낮은 예측 품질의 주요 원인 중 하나임을 시사하고 있다. 본 논문에서는 현재의 비디오 모델에서 파라미터의 비효율적인 사용이 과소적합의 주요 원인이라고 주장한다. 따라서 우리는 기존 최첨단 모델과 유사한 파라미터 수를 가지되, 일반 벤치마크에서 심각한 과적합(overfitting)을 가능하게 하는 새로운 아키텍처인 FitVid를 제안한다. 우리는 과적합의 결과를 분석하여, 훈련 데이터를 반복함으로써 고품질 출력을 생성하는 등 예기치 못한 결과가 발생할 수 있음을 보여주며, 기존의 이미지 증강 기법을 통해 이를 완화할 수 있음을 설명한다. 그 결과, FitVid는 네 가지 다른 비디오 예측 벤치마크에서 네 가지 다른 지표에서 현재 최첨단 모델들을 모두 능가한다.