8일 전

약한 감독 신호를 이용한 하이퍼볼릭 공간 내 음성-시각적 폭력 탐지 학습

Xiaogang Peng, Hao Wen, Yikai Luo, Xiao Zhou, Keyang Yu, Ping Yang, Zizhao Wu
약한 감독 신호를 이용한 하이퍼볼릭 공간 내 음성-시각적 폭력 탐지 학습
초록

최근 몇 년간 약한 감독 하의 음성-시각적 폭력 탐지 작업은 큰 주목을 받고 있다. 이 작업의 목적은 영상 수준의 레이블을 기반으로 다중 모달 데이터 내에서 폭력적인 구간을 식별하는 것이다. 이 분야의 발전에도 불구하고, 이전 연구에서 사용된 전통적인 유클리드 신경망은 특징 공간의 제약으로 인해 매우 구분력 있는 표현을 포착하는 데 어려움을 겪는다. 이를 극복하기 위해 우리는 초평면 공간에서 스니펫 임베딩을 학습함으로써 모델의 구분력을 향상시키는 새로운 프레임워크인 HyperVD를 제안한다. 본 프레임워크는 음성과 시각 신호 간의 모달 불일치를 효과적으로 완화하는 데트워(fusion) 모듈을 포함하고 있다. 또한, 초평면 공간에서 스니펫 간의 특징 유사성과 시간적 관계를 탐색하기 위한 두 가지 완전한 초평면 그래프 컨볼루션 네트워크를 제안한다. 이러한 공간에서 스니펫 표현을 학습함으로써, 프레임워크는 폭력적인 사건과 일반적인 사건 간의 의미적 차이를 효과적으로 학습할 수 있다. XD-Violence 벤치마크에서 실시한 광범위한 실험 결과, 본 방법은 최신 기술 대비 상당한 성능 향상을 보였다.

약한 감독 신호를 이용한 하이퍼볼릭 공간 내 음성-시각적 폭력 탐지 학습 | 최신 연구 논문 | HyperAI초신경