모달리티 인지형 대비적 인스턴스 학습과 자기 분산을 통한 약한 감독 하의 음성-시각적 폭력 탐지

약한 지도 신호를 갖는 음성-시각적 폭력 탐지(task)는 영상 수준의 레이블만을 이용하여 다중 모달 폭력 이벤트를 포함하는 영상 조각(스니펫)을 구분하는 것을 목표로 한다. 기존의 많은 연구들은 음성과 시각 정보를 조기 또는 중간 단계에서 통합하고 상호작용하지만, 약한 지도 학습 환경에서의 모달 간 이질성(모달 비균형성)을 간과하고 있다. 본 논문에서는 다중 예제 학습(Multiple Instance Learning, MIL) 절차에서 발생하는 모달 비동기성 및 구분되지 않은 인스턴스 현상을 분석하고, 이러한 현상이 약한 지도 학습 기반의 음성-시각 학습에 미치는 부정적 영향을 심층적으로 탐구한다. 이를 해결하기 위해, 자기-디스틸레이션(self-distillation)을 통합한 모달 인지형 대조적 인스턴스 학습(MACIL-SD) 전략을 제안한다. 구체적으로, 경량화된 이중 스트림 네트워크를 활용하여 음성 및 시각 데이터에서 각각의 배그(bag)를 생성하며, 비지도 방식으로 단일 모달 배경, 폭력적, 정상 인스턴스들을 반-배그(semi-bag)로 군집화한다. 이후 음성 및 시각 모달의 폭력적 반-배그 표현을 긍정 쌍(positive pair)으로 조합하고, 폭력적 반-배그를 다른 모달의 배경 및 정상 인스턴스와 결합하여 대조적 음성 쌍(negative pair)으로 구성한다. 또한, 단일 모달 시각 지식을 음성-시각 모델로 전이하기 위해 자기-디스틸레이션 모듈을 도입함으로써 노이즈를 완화하고 단일 모달과 다중 모달 특징 간의 의미적 간극을 좁힌다. 실험 결과, 대규모 XD-Violence 데이터셋에서 제안한 프레임워크는 기존 방법보다 높은 성능을 달성하면서도 낮은 계산 복잡도를 유지함을 입증하였다. 또한, 제안된 방법이 다른 네트워크에 플러그인 모듈로 활용 가능함을 확인하였다. 코드는 다음 주소에서 공개되어 있다: https://github.com/JustinYuu/MACIL_SD.