
최근, 비디오 분류를 위한 메모리 용량이 1GB 미만인 소형 모델 구축에 많은 관심이 집중되고 있습니다. 이러한 모델들은 소형이지만, 일반적으로 비디오의 모든 프레임에 작은 가중치 행렬을 반복적으로 적용하여 작동합니다. 예를 들어, 순환 신경망(RNN) 기반 방법은 순환 가중치 행렬을 사용하여 비디오의 각 프레임에 대해 은닉 상태(hidden state)를 계산합니다. 마찬가지로, NetVLAD와 같은 클러스터링-집계(cluster-and-aggregate) 기반 방법은 학습 가능한 클러스터링 행렬을 사용하여 비디오의 모든 프레임에 부드러운 클러스터(soft-cluster)를 할당합니다. 이러한 모델들이 비디오의 모든 프레임을 살펴보기 때문에, 메모리 용량이 작더라도 부동소수점 연산(FLOPs)의 수는 여전히 크습니다.우리는 계산 효율적인 비디오 분류 모델 구축에 초점을 맞추고 있으며, 이 모델들은 적은 수의 프레임만 처리하므로 FLOPs의 수가 적습니다. 메모리 효율적인 모델들과 유사하게, 우리는 지도(distillation)라는 아이디어를 활용하지만 다른 환경에서 이를 적용합니다. 구체적으로, 우리 경우에서는 비디오의 모든 프레임을 살펴보는 계산량이 큰 선생님 모델(teacher model)을 사용하여, 비디오의 일부 프레임만 살펴보는 계산 효율적인 학생 모델(student model)을 훈련시킵니다. 이는 전형적인 메모리 효율적인 선생님-학생 설정과 대조되며, 이 설정에서는 선생님과 학생 모두 비디오의 모든 프레임을 살펴보지만 학생이 더 적은 매개변수(parameters)를 갖습니다.따라서 우리의 연구는 메모리 효율적인 비디오 분류 연구를 보완합니다. 우리는 (i) 순환 모델 (ii) 클러스터링-집계 모델 (iii) 메모리 효율적인 클러스터링-집계 모델 등 세 가지 유형의 비디오 분류 모델에 대한 광범위한 평가를 수행하고, 각각의 경우에서 전체를 볼 수 있는 선생님 모델을 사용하여 매우 적게 볼 수 있는 계산 효율적인 학생 모델을 훈련시킬 수 있음을 보여줍니다. 제안된 학생 네트워크는 성능 저하가 거의 없는 상태에서 추론 시간을 30% 줄이고 FLOPs 수를 약 90% 감소시킬 수 있음을 입증하였습니다.