8일 전
단순히 보는 것을 넘어서 듣는 것도: 약한 지도 하에 다중모달 폭력 탐지 학습
Peng Wu, Jing Liu, Yujia Shi, Yujia Sun, Fangtao Shao, Zhaoyang Wu, Zhiwei Yang

초록
폭력 탐지에 대한 연구는 컴퓨터 비전 분야에서 수년간 진행되어 왔다. 그러나 기존의 연구는 대부분 표면적인 접근을 보였으며, 예를 들어 짧은 클립의 분류나 단일 시나리오에 국한된 방식이었고, 혹은 부족한 데이터나 단일 모달리티, 수작업 특징 기반의 다중 모달리티 접근을 취하고 있었다. 이 문제를 해결하기 위해 본 연구에서는 총 217시간의 길이를 지닌 대규모이고 다양한 장면을 포함하는 새로운 데이터셋인 XD-Violence를 공개한다. 이 데이터셋은 오디오 신호가 포함된 4,754개의 트림되지 않은 영상과 약한 레이블을 포함하고 있다. 또한, 영상 조각들 간의 다양한 관계를 포착하고 특징을 통합하기 위해 세 개의 병렬 브랜치를 포함하는 신경망 구조를 제안한다. 전체적인 브랜치는 유사성 사전 지식을 이용해 장거리 의존성을 모델링하고, 국소적 브랜치는 근접성 사전 지식을 활용해 국소적 위치 관계를 포착하며, 점수 브랜치는 예측 점수 간의 가까움을 동적으로 모델링한다. 더불어, 실시간 탐지에 적합한 근사기(approximator)도 포함되어 있다. 제안한 방법은 공개된 데이터셋과 기존의 다양한 벤치마크에서 다른 최첨단 기법들을 모두 능가한다. 또한, 광범위한 실험 결과는 다중 모달리티(음성-시각) 입력과 관계 모델링이 긍정적인 효과를 가져옴을 입증한다. 코드와 데이터셋은 https://roc-ng.github.io/XD-Violence/ 에서 공개될 예정이다.