17일 전

비디오를 이용한 딥러닝 기법을 활용한 폭력 인식

{Dina Khattab, Bassel Safwat Chawky, Youssef Mohamed Mostafa, Mina Abd El-Massih Nashed, Mohamed Hussein Kamal, Mohamed Mostafa Soliman}
초록

개인 간 또는 군중 간의 폭력 행위를 비디오에서 자동으로 인식하는 것은 넓은 관심을 끌고 있다. 본 연구에서는 비디오 내 폭력 행위를 인식하기 위한 엔드투엔드(end-to-end) 딥 신경망 모델을 제안한다. 제안된 모델은 ImageNet에서 사전 훈련된 VGG-16을 공간적 특징 추출기로 사용한 후, 시계열적 특징 추출을 위해 장기 기억 단기 메모리(Long Short-Term Memory, LSTM)를 활용하고, 분류를 위해 완전 연결 계층의 시퀀스를 구성한다. 제안된 모델은 거의 최첨단 수준의 정확도를 달성하였다. 또한, 본 연구는 2000개의 짧은 비디오로 구성된 새로운 벤치마크인 Real-Life Violence Situations를 제안함으로써 기여하였다. 이 벤치마크는 폭력 비디오 1000개와 비폭력 비디오 1000개로 나뉘어져 있으며, 제안된 모델의 정밀 조정(fine-tuning)에 사용되어 최고 88.2%의 정확도를 달성하였다.