MoViNets: 효율적인 동영상 인식을 위한 모바일 동영상 네트워크

우리는 스트리밍 영상에 대한 온라인 추론을 지원할 수 있는 계산 및 메모리 효율적인 영상 네트워크인 Mobile Video Networks(MoViNets)를 제안한다. 3차원 컨볼루션 신경망(3D CNN)은 영상 인식에서 높은 정확도를 보이지만, 큰 계산 및 메모리 리소스를 요구하며 온라인 추론을 지원하지 않아 모바일 장치에서의 적용이 어렵다. 본 연구에서는 3D CNN의 계산 효율성을 향상시키면서 피크 메모리 사용량을 크게 줄이기 위한 세 단계 접근법을 제안한다. 첫째, 효율적이고 다양한 3D CNN 아키텍처를 생성하기 위해 영상 네트워크 탐색 공간을 설계하고, 신경망 아키텍처 탐색(NAS) 기법을 활용한다. 둘째, 영상 클립 길이로부터 메모리를 분리하는 Stream Buffer 기법을 도입하여, 3D CNN이 훈련 및 추론 시 임의 길이의 스트리밍 영상 시퀀스를 처리할 수 있도록 하면서도 일정한 소규모 메모리 사용량을 유지한다. 셋째, 효율성을 희생하지 않고 정확도를 추가로 향상시키기 위해 간단한 앙상블 기법을 제안한다. 이 세 가지 점진적인 기법을 통해 MoViNets는 Kinetics, Moments in Time, Charades 영상 행동 인식 데이터셋에서 최신 기술 수준의 정확도와 효율성을 달성한다. 예를 들어, MoViNet-A5-Stream은 Kinetics 600에서 X3D-XL과 동일한 정확도를 달성하면서도 연산량(FLOPs)은 80% 감소하고 메모리 사용량은 65% 감소시켰다. 코드는 https://github.com/tensorflow/models/tree/master/official/vision 에 공개될 예정이다.