2달 전

시공간 잔차 네트워크를 이용한 비디오 동작 인식

Christoph Feichtenhofer; Axel Pinz; Richard P. Wildes
시공간 잔차 네트워크를 이용한 비디오 동작 인식
초록

두 스트림 컨볼루션 네트워크(ConvNets)는 비디오에서 인간 행동 인식에 있어 뛰어난 성능을 보여주었습니다. 최근에는 잔차 네트워크(ResNets)가 매우 깊은 구조를 학습하는 새로운 기술로 등장하였습니다. 본 논문에서는 이러한 두 가지 접근 방식을 결합한 시공간 잔차 네트워크(spatiotemporal ResNets)를 소개합니다. 우리의 혁신적인 아키텍처는 시공간 영역에서의 잔차 연결(residual connections)을 두 가지 방법으로 도입하여 ResNets를 일반화합니다. 첫째, 두 스트림 구조의 외관(appearance) 경로와 운동(motion) 경로 사이에 잔차 연결을 주입하여 두 스트림 간의 시공간 상호작용을 허용합니다. 둘째, 사전 학습된 이미지 ConvNets를 시간적으로 인접한 특성 맵(feature maps)에서 작동하며 시간적 잔차 연결(temporal residual connections)으로 초기화된 학습 가능한 컨볼루션 필터를 장착하여 시공간 네트워크로 변환합니다. 이 접근 방식은 모델의 깊이가 증가함에 따라 점진적으로 시공간 수용 영역(receptive field)을 확대하고 이미지 ConvNet 설계 원칙을 자연스럽게 통합합니다. 전체 모델은 복잡한 시공간 특성을 계층적으로 학습할 수 있도록 엔드투엔드(end-to-end)로 학습됩니다. 우리는 두 개의 널리 사용되는 행동 인식 벤치마크에서 이전 최고 기술(state-of-the-art)을 초월하는 성능을 보이는 새로운 시공간 ResNet을 평가하였습니다.

시공간 잔차 네트워크를 이용한 비디오 동작 인식 | 최신 연구 논문 | HyperAI초신경