VarNet: 비지도 영상 예측을 위한 변형 탐색
비지도 비디오 예측은 자연 장면 내 복잡성과 다양성으로 인해 매우 도전적인 과제이다. 기존의 연구들은 픽셀이나 광학 흐름을 직접 예측하려는 시도를 했으나, 블러링 문제를 겪거나 추가적인 가정을 필요로 하는 단점이 있었다. 본 연구에서는 비디오 프레임 예측의 핵심이 객체의 움직임과 주변 환경의 변화를 정확히 포착하는 프레임 간 변화를 모델링하는 데 있음을 강조한다. 이를 바탕으로, 인접 프레임 간의 변화를 직접 예측하고 이를 현재 프레임과 융합하여 미래 프레임을 생성하는 비지도 비디오 예측 프레임워크인 변동 네트워크(Variation Network, VarNet)를 제안한다. 또한, 각 픽셀의 변화 폭에 따라 공정한 가중치를 부여할 수 있도록 손실 함수에 적응형 재가중 메커니즘을 도입하였다. KTH 및 KITTI라는 두 가지 최신 데이터셋을 대상으로 단기 및 장기 비디오 예측에 대한 광범위한 실험을 수행하였으며, 평가 지표로 PSNR와 SSIM을 사용하였다. KTH 데이터셋에서는 VarNet이 최신 기법 대비 PSNR에서 최대 11.9%, SSIM에서 최대 9.5% 향상된 성능을 보였다. KITTI 데이터셋에서는 PSNR에서 최대 55.1%, SSIM에서 최대 15.9%의 성능 향상이 확인되었다. 또한, KITTI 데이터셋에서 학습한 후 미학습된 CalTech Pedestrian 데이터셋에서 테스트한 결과, 제안한 모델이 다른 최신 기법들보다 우수한 일반화 능력을 보임을 입증하였다. 소스 코드와 영상은 https://github.com/jinbeibei/VarNet 에서 확인할 수 있다.