2달 전
ActionFlowNet: 동작 인식을 위한 운동 표현 학습
Joe Yue-Hei Ng; Jonghyun Choi; Jan Neumann; Larry S. Davis
초록
최근 컨벌루션 신경망(CNN)이 다양한 시각 인식 작업에서 큰 발전을 이루었음에도 불구하고, 최신의 행동 인식 시스템은 여전히 최적의 성능을 달성하기 위해 광학 흐름과 같은 수작업으로 만든 운동 특성을 의존하고 있습니다. 우리는 단일 스트림 네트워크를 원시 픽셀로부터 직접 학습하여 컨벌루션 신경망을 사용해 행동을 인식하면서 동시에 광학 흐름을 추정하는 ActionFlowNet이라는 다중태스크 학습 모델을 제안합니다. 이 모델은 외형과 운동을 단일 모델에서 모두 포착할 수 있습니다. 또한, 학습된 광학 흐름의 품질이 행동 인식에 어떻게 영향을 미치는지에 대한 통찰력을 제공합니다. 우리의 모델은 대규모 외부 데이터와 추가적인 광학 흐름 입력 없이 학습된 최신 CNN 기반 행동 인식 모델보다 크게 31% 개선된 행동 인식 정확도를 보입니다. 대규모 외부 라벨링 데이터셋(예: ImageNet 및 Sport-1M)에서 사전 학습하지 않은 상태에서도, 우리의 모델은 운동 정보를 효과적으로 활용하여 이러한 데이터셋에서 학습된 모델들과 경쟁력 있는 인식 정확도를 달성합니다.