2달 전

다중 규모 병목 트랜스포머를 이용한 약간 감독된 다중 모달 폭력 검출

Sun, Shengyang ; Gong, Xiaojin
다중 규모 병목 트랜스포머를 이용한 약간 감독된 다중 모달 폭력 검출
초록

약한 감독 하에서의 다중 모드 폭력 검출은 비디오 수준의 주석만이 제공되는 상황에서 RGB, 광학 흐름, 오디오 등의 여러 모드를 활용하여 폭력 검출 모델을 학습하는 것을 목표로 합니다. 효과적인 다중 모드 폭력 검출(MVD)을 위해 정보 중복성, 모드 불균형, 모드 비동기성이 세 가지 주요 과제로 확인되었습니다. 본 연구에서는 이러한 과제들을 명시적으로 해결하기 위한 새로운 약한 감독 MVD 방법을 제안합니다. 구체적으로, 병목 토큰의 수를 줄여 정보를 점진적으로 축약하고 각 모드 쌍을 융합하며, 더 중요한 융합된 특성을 강조하기 위한 병목 토큰 기반 가중치 방식을 사용하는 다중 스케일 병목 변환기(MSBT) 기반 융합 모듈을 소개합니다. 또한, 시간적 일관성 대비 손실 함수를 제안하여 쌍별로 융합된 특성을 의미론적으로 정렬합니다. 최대 규모의 XD-Violence 데이터셋에 대한 실험 결과, 제안된 방법이 최신 기술 수준의 성능을 달성함을 보여주었습니다. 코드는 https://github.com/shengyangsun/MSBT에서 제공됩니다.

다중 규모 병목 트랜스포머를 이용한 약간 감독된 다중 모달 폭력 검출 | 최신 연구 논문 | HyperAI초신경