비디오 예측: 메모리 정렬 학습을 통한 장기 운동 맥락 회상

우리의 연구는 미래 프레임 예측을 위한 장기적 운동 맥락(장기적 운동 패턴) 문제를 다룹니다. 정확한 미래 예측을 위해서는 입력 운동(예: 다리 움직임)이 어떤 장기적 운동 맥락(예: 걷기 또는 뛰기)에 속하는지를 파악하는 것이 필수적입니다. 장기적 운동 맥락을 다룰 때 발생하는 주요 한계는 다음과 같습니다: (i) 제한된 역학적 특성을 가진 입력 시퀀스와 자연스럽게 일치하는 장기적 운동 맥락을 어떻게 예측할 것인가, (ii) 고차원성(예: 복잡한 운동)을 가진 장기적 운동 맥락을 어떻게 예측할 것인가. 이러한 문제를 해결하기 위해, 우리는 새로운 운동 맥락 인식 기반의 영상 예측 기법을 제안합니다. 문제 (i)를 해결하기 위해, 메모리 정렬 학습(memory alignment learning)을 도입한 장기적 운동 맥락 메모리(LMC-Memory)를 제안합니다. 제안한 메모리 정렬 학습 기법은 장기적 운동 맥락을 메모리에 저장하고, 제한된 역학적 특성을 가진 시퀀스와 이를 정확히 매칭할 수 있도록 합니다. 그 결과, 제한된 입력 시퀀스로부터도 장기적 맥락을 효과적으로 복원할 수 있습니다. 또한 문제 (ii)를 해결하기 위해, 국소적 운동 맥락(즉, 저차원 역학적 특성)을 별도로 저장하고, 입력 시퀀스의 각 국소 부분에 대해 적절한 국소 맥락을 개별적으로 복원할 수 있도록 하는 메모리 쿼리 분해(memory query decomposition) 기법을 제안합니다. 이를 통해 메모리의 정렬 효과를 더욱 강화할 수 있습니다. 실험 결과, 제안한 방법은 특히 장기 예측 조건에서 다른 고도화된 RNN 기반 기법들을 능가함을 보였습니다. 또한, 제거 실험(ablation study) 및 메모리 특성 분석을 통해 제안한 네트워크 설계의 효과성을 검증하였습니다. 본 연구의 소스 코드는 공개되어 있습니다.