2달 전

액션 인식을 위한 숨겨진 두 스트림 컨볼루셔널 네트워크

Yi Zhu; Zhenzhong Lan; Shawn Newsam; Alexander G. Hauptmann
액션 인식을 위한 숨겨진 두 스트림 컨볼루셔널 네트워크
초록

인간 행동의 비디오 분석은 비디오 프레임 간의 시간적 관계를 이해하는 것을 포함합니다. 최신 행동 인식 접근 방식은 CNNs(합성곱 신경망)에 대한 운동 정보를 사전 계산하기 위해 전통적인 광학 흐름 추정 방법에 의존합니다. 이러한 두 단계 접근 방식은 계산적으로 비용이 많이 들고, 저장 공간을 많이 요구하며, 끝까지 학습(end-to-end training)할 수 없습니다. 본 논문에서는 인접한 프레임 사이의 운동 정보를 암시적으로 포착하는 새로운 CNN 구조를 제시합니다. 우리의 접근 방식을 '숨겨진 두 스트림 CNNs'이라고 명명하였는데, 이는 원시 비디오 프레임만을 입력으로 받아 광학 흐름을 명시적으로 계산하지 않고 직접 행동 클래스를 예측하기 때문입니다. 우리의 끝까지 학습 가능한 접근 방식은 두 단계 기준 대비 10배 더 빠릅니다. UCF101, HMDB51, THUMOS14 및 ActivityNet v1.2라는 네 개의 도전적인 행동 인식 데이터셋에서 수행된 실험 결과는 우리의 접근 방식이 이전 최고 실시간 접근 방식보다 크게 우수함을 보여줍니다.

액션 인식을 위한 숨겨진 두 스트림 컨볼루셔널 네트워크 | 최신 연구 논문 | HyperAI초신경