17일 전

시계열 융합 기법을 활용한 복합 신경망(Convolutional 및 LSTM)을 이용한 비디오 분류: 폭력 탐지에의 적용

{Carlos Maur´ıcio Ser´odio Figueiredo, Jean Phelipe de Oliveira Lima}
초록

현대 스마트 시티에서는 최고 수준의 통합 및 자동화 서비스를 추구하고 있다. 감시 분야에서는 실시간 영상 분석을 자동화하여 위급 상황을 탐지하는 것이 주요 과제 중 하나이다. 본 연구는 RLVS 데이터베이스를 활용하여 '폭력(Violence)'과 '비폭력(Non-Violence)'이라는 두 가지 클래스로 영상을 분류하는 작업을 수행하기 위해 합성곱 신경망(Convolutional Neural Networks, CNN)을 기반으로 한 모델(모바일넷, 인셉션V3, VGG16 사용), LSTM 네트워크 및 전방향 신경망을 제안한다. 시간적 융합(Temporal Fusion) 기법에 따라 다양한 데이터 표현 방식을 적용하였다. 그 결과, 정확도(Accuracy)는 0.91, F1-스코어는 0.90을 달성하였으며, 동일한 데이터베이스를 활용한 기존 연구들과 비교하여 높은 성능을 보였다.

시계열 융합 기법을 활용한 복합 신경망(Convolutional 및 LSTM)을 이용한 비디오 분류: 폭력 탐지에의 적용 | 최신 연구 논문 | HyperAI초신경