비디오 모델을 효율적으로 훈련하기 위한 다중격자 방법

경쟁적인 딥 비디오 모델을 훈련하는 것은 해당 이미지 모델을 훈련하는 것보다 약 10배 이상 느리다. 훈련 속도가 느리면 연구 주기가 길어지고, 이는 비디오 이해 연구의 진전을 저해한다. 이미지 모델 훈련의 표준 절차에 따라 비디오 모델 훈련은 고정된 미니배치 형상(특정 수의 클립, 프레임, 공간적 크기)을 가정한다. 그러나 최적의 형상은 무엇인가? 고해상도 모델은 성능이 우수하지만 훈련 속도가 느리다. 반면 저해상도 모델은 빠르게 훈련되지만 정확도가 낮다. 수치 최적화 분야의 다중 격자(Multigrid) 방법을 영감으로 삼아, 시간-공간 해상도가 다른 가변적인 미니배치 형상을 일정한 스케줄에 따라 조절하여 사용하는 방법을 제안한다. 이러한 다양한 형상은 여러 샘플링 격자 위에서 훈련 데이터를 재샘플링함으로써 도출된다. 다른 차원을 축소할 때 미니배치 크기와 학습률을 증가시킴으로써 훈련 속도를 가속화한다. 실증적으로, 다양한 모델(I3D, Non-local, SlowFast), 데이터셋(Kinetics, Something-Something, Charades), 훈련 설정(사전 훈련 여부, 128 GPU 또는 1 GPU)에 대해 정확도 손실 없이 의미 있는 즉시 적용 가능한 훈련 속도 향상을 제공하는 일반적이고 강건한 격자 스케줄을 입증하였다. 예를 들어, 제안하는 다중 격자 방법은 ResNet-50 SlowFast 네트워크를 기준 훈련 방법보다 4.5배 더 빠르게 훈련시켰으며(Kinetics-400에서 동일한 하드웨어 기준 실시간 시간 기준), 정확도도 +0.8% 절대값으로 향상시켰다. 코드는 온라인에서 공개되어 있다.