2달 전

첫 번째로 정렬하고 그 다음에 융합: 새로운 약간의 지도를 받는 다중 모드 폭력 검출 방법

Jin, Wenping ; Zhu, Li ; Sun, Jing
첫 번째로 정렬하고 그 다음에 융합: 새로운 약간의 지도를 받는 다중 모드 폭력 검출 방법
초록

약한 감독 하의 폭력 검출은 비디오 수준 라벨만을 사용하여 모델을 훈련시켜 비디오에서 폭력 장면을 식별하는 기술을 의미합니다. 이 분야의 접근 방식 중 하나인 다중 모달 폭력 검출은 오디오와 광학 유동(optical flow) 등의 모달성을 통합하여 큰 잠재력을 가지고 있습니다. 기존 방법들은 주로 모달성 간 차이를 해결하기 위한 다중 모달 융합 모델 설계에 초점을 맞추고 있지만, 우리는 다른 접근 방식을 취합니다. 즉, 폭력 사건 표현에서 발생하는 본질적인 모달성 간 차이를 활용하여 새로운 다중 모달 의미 특징 정렬 방법을 제안합니다. 이 방법은 로컬, 일시적이고 정보가 적은 모달성(예: 오디오, 광학 유동)의 의미 특징을 정보가 더 많은 RGB 의미 특징 공간으로 희소하게 매핑합니다. 반복 과정을 통해 적절한 비제로 특징 대응 부분 공간을 식별하고, 이를 기반으로 각각의 모달성별 사건 표현을 정렬하여 후속 단계에서 모든 모달성의 정보를 완전히 활용할 수 있도록 합니다. 이러한 기반 위에 우리는 단일 모달 다중 인스턴스 학습으로 단일 모달 의미 특징을 추출하고, 다중 모달 정렬, 다중 모달 융합 및 최종 검출로 구성된 새로운 약한 감독 하의 폭력 검출 프레임워크를 설계하였습니다. 벤치마크 데이터셋에서 수행된 실험 결과는 우리 방법의 효과성을 입증하며, XD-Violence 데이터셋에서 평균 정밀도(AP) 86.07%를 달성하였습니다. 우리의 코드는 https://github.com/xjpp2016/MAVD 에서 확인할 수 있습니다.

첫 번째로 정렬하고 그 다음에 융합: 새로운 약간의 지도를 받는 다중 모드 폭력 검출 방법 | 최신 연구 논문 | HyperAI초신경