17일 전

I3D-LSTM: 인간 행동 인식을 위한 새로운 모델

{Zhenjiang Miao, Xianyuan Wang, Ruyi Zhang, Shanshan Hao}
초록

행동 인식은 최근 뜨거운 연구 주제로 부상하고 있으며, 비디오 속 인간의 다양한 행동을 분류하는 것을 목표로 한다. 현재 주류의 방법들은 일반적으로 ImageNet에서 사전 훈련된 모델을 특징 추출기로 활용하지만, 이는 거대한 정적 이미지 데이터셋에서 비디오 분류를 위한 모델을 사전 훈련하는 데 최적의 선택은 아니다. 게다가, 3D 합성곱 신경망(3D CNN)이 저수준의 공간-시간 특징 추출에 더 적합한 반면, 순환 신경망(RNN)이 고수준의 시간적 특징 시퀀스 모델링에 더 효과적이라는 점을 고려한 연구는 매우 드물다. 따라서 본 연구에서는 위의 두 문제를 해결하기 위해 새로운 모델을 제안한다. 먼저, 거대한 비디오 행동 인식 데이터셋인 Kinetics에서 3D CNN 모델을 사전 훈련함으로써 모델의 일반화 능력을 향상시킨다. 이후, Kinetics에서 사전 훈련된 3D CNN 모델이 생성한 고수준 시간적 특징을 모델링하기 위해 장단기 기억망(LSTM)을 도입한다. 실험 결과에 따르면, Kinetics에서 사전 훈련된 모델은 일반적으로 ImageNet에서 사전 훈련된 모델보다 우수한 성능을 보였다. 또한 제안한 네트워크는 UCF-101 데이터셋에서 최상의 성능을 달성하였다.