2달 전

Short Snippets를 넘어서: 비디오 분류를 위한 딥 네트워크

Joe Yue-Hei Ng; Matthew Hausknecht; Sudheendra Vijayanarasimhan; Oriol Vinyals; Rajat Monga; George Toderici
Short Snippets를 넘어서: 비디오 분류를 위한 딥 네트워크
초록

컨벌루션 신경망(CNNs)은 이미지 인식 문제에 광범위하게 적용되어, 인식, 탐지, 분할 및 검색에서 최신 수준의 결과를 제공하고 있습니다. 본 연구에서는 이전보다 더 긴 시간 동안 비디오 내의 이미지 정보를 결합하기 위한 여러 가지 딥 뉴럴 네트워크 구조를 제안하고 평가합니다. 우리는 전체 길이의 비디오를 처리할 수 있는 두 가지 방법을 제안합니다. 첫 번째 방법은 다양한 컨벌루션 시계열 피처 풀링 구조를 탐구하며, 이 작업에 CNN을 적응시키기 위해 이루어져야 하는 다양한 설계 선택 사항들을 검토합니다. 두 번째 제안된 방법은 비디오를 프레임들의 순서있는 시퀀스로 명시적으로 모델링합니다. 이를 위해 우리는 하부 CNN의 출력과 연결된 Long Short-Term Memory (LSTM) 셀을 사용하는 순환 신경망(RNN)을 활용합니다. 우리의 최고 성능을 보이는 네트워크는 스포츠 1백만 데이터셋(73.1% 대 60.9%)과 UCF-101 데이터셋에서 추가적인 광학 유동 정보 없이(82.6% 대 72.8%) 또는 포함하여(88.6% 대 88.0%) 이전에 발표된 결과들보다 상당한 성능 개선을 보였습니다.