초록
비디오 내 폭력 행위 탐지는 복잡한 시나리오와 높은 클래스 내 변동성으로 인해 도전적인 과제이다. 기존 대부분의 연구는 외형적 특징이나 운동 정보 분석에 주로 집중하며, 음성과 시각 정보가 동시에 발생하는 상황을 간과하고 있다. 신체적 갈등인 폭행이나 싸움은 일반적으로 비명 소리와 함께 발생하는 반면, 군중 폭력인 시위나 전투는 일반적으로 총성과 폭발 소리와 관련이 있다. 따라서 본 연구에서는 새로운 음성 유도 다모달 폭력 탐지 프레임워크를 제안한다. 먼저 깊은 신경망을 활용하여 시각적 특징과 음성 특징을 각각 추출한다. 이후 시간 차원을 기반으로 음성 정보를 시각 정보에 강화하는 교차 모달 인지 지역 각성(Cross-Modal Awareness Local-Arousal, CMA-LA) 네트워크를 제안한다. 강화된 특징은 다층 퍼셉트론(Multilayer Perceptron, MLP)을 통해 고차원 의미 정보를 추출하고, 이후 시간적 컨볼루션 계층을 통해 높은 신뢰도의 폭력 점수를 도출한다. 제안한 방법의 유효성을 검증하기 위해 대규모 폭력 영상 데이터셋인 XD Violence에서 실험을 수행하였다. 포괄적인 실험 결과는 본 방법이 우수한 강건성을 보이며, 새로운 최고 성능(AP 기준)을 달성함을 입증하였다.