
초록
비디오는 크기가 크고 사전 처리가 복잡하며 학습 속도가 느리다. 최신의 대규모 비디오 모델은 수일에 걸쳐 32개 이상의 GPU 클러스터를 사용해 학습된다. 그 결과, 학계는 대규모 비디오 모델의 학습을 주로 산업계에 위임하게 되었다. 본 논문에서는 단일 머신에 소비자용 GPU 8개를 사용해 하루 만에 최신 기술 수준의 비디오 모델을 학습할 수 있는 방법을 제시한다. 우리는 I/O, CPU, GPU 계산이라는 세 가지 주요 병목 현상을 식별하고 각각에 대해 최적화를 수행하였다. 그 결과, 매우 효율적인 비디오 학습 파이프라인을 구현할 수 있었다. 동일한 아키텍처를 기준으로 하였을 때, 기존 연구 대비 계산량의 1/8로 더 높은 정확도를 달성하였다. 코드는 https://github.com/zhaoyue-zephyrus/AVION 에 공개되어 있다.