분리형 컨볼루션 LSTM을 활용한 폭력 탐지용 효율적인 두 개의 스트림 네트워크

감시 영상에서 폭력 행위를 자동으로 탐지하는 것은 무인 보안 모니터링 시스템, 인터넷 영상 필터링 등에 광범위하게 적용 가능한 활동 인식의 하위 분야로서 특별한 주목을 받을 만하다. 본 연구에서는 배경 억제 프레임을 입력으로 사용하는 스트림과 인접 프레임 간의 차이를 처리하는 다른 스트림을 활용한 효율적인 이중 스트림 딥러닝 아키텍처를 제안한다. 이 아키텍처는 분리형 컨볼루션 LSTM(SepConvLSTM)과 사전 훈련된 MobileNet을 활용하며, 하나의 스트림은 배경이 억제된 프레임을 입력으로 받고, 다른 스트림은 인접 프레임 간의 차이를 처리한다. 우리는 정적 배경을 억제하고 움직이는 객체를 강조하는 간단하면서도 빠른 입력 전처리 기법을 도입하여 프레임 간의 움직임을 효과적으로 포착하였다. 폭력적 행동은 대부분 신체의 움직임으로 특징지어지므로 이러한 입력은 구분 가능한 특징을 생성하는 데 기여한다. SepConvLSTM은 ConvLSTM의 각 게이트에서 컨볼루션 연산을 깊이 분리형 컨볼루션(depthwise separable convolution)으로 대체함으로써, 훨씬 적은 파라미터로도 강력한 장거리 스파티오토르 temporal 특징을 생성할 수 있도록 설계되었다. 우리는 두 스트림의 출력 특징 맵을 결합하기 위해 세 가지 융합 방법을 실험하였다. 제안된 방법의 성능 평가는 세 가지 표준 공개 데이터셋에서 수행되었으며, 더 크고 도전적인 RWF-2000 데이터셋에서는 기존의 최고 수준의 모델보다 정확도에서 2% 이상 우수한 성능을 기록하였고, 더 작은 데이터셋에서는 최신 기술 수준의 결과를 동일하게 달성하였다. 실험 결과를 종합적으로 분석한 결과, 제안하는 모델은 계산 효율성과 탐지 정확도 측면에서 모두 우수한 성능을 보임을 확인할 수 있었다.