17일 전

대규모 비디오 분류를 위한 컨볼루션 신경망

{Li Fei-Fei, Rahul Sukthankar, Thomas Leung, George Toderici, Sanketh Shetty, Andrej Karpathy}
대규모 비디오 분류를 위한 컨볼루션 신경망
초록

합성곱 신경망(Convolutional Neural Networks, CNN)은 이미지 인식 문제에 있어 강력한 모델 클래스로 자리 잡았다. 이러한 성과에 힘입어, 487개 클래스에 속하는 100만 개의 YouTube 영상으로 구성된 새로운 데이터셋을 활용하여 대규모 영상 분류 문제에 대한 CNN의 광범위한 실증적 평가를 수행한다. 우리는 시간 영역에서 CNN의 연결성을 확장하는 다양한 접근 방식을 탐색하여 국소적인 공간-시간 정보를 효과적으로 활용하는 방법을 연구하며, 다중 해상도 및 중심시각(foveated) 아키텍처를 학습 속도 향상에 유망한 방향으로 제안한다. 최적의 공간-시간 네트워크는 강력한 특징 기반 기준 모델에 비해 상당한 성능 향상을 보였으며(55.3% → 63.9%), 단일 프레임 모델에 비해서는 예상보다 미약한 개선만을 보였다(59.3% → 60.9%). 또한, 최고 성능 모델의 일반화 능력을 평가하기 위해 UCF-101 행동 인식 데이터셋에서 상위 레이어를 재학습한 결과, UCF-101 기준 모델에 비해 뚜렷한 성능 향상(43.9% → 63.3%)을 관찰할 수 있었다.

대규모 비디오 분류를 위한 컨볼루션 신경망 | 최신 연구 논문 | HyperAI초신경