
초록
조작된 비디오에는 시각적 신호와 오디오 신호 사이에 미묘한 불일치가 종종 포함되어 있습니다. 우리는 이러한 불일치를 식별할 수 있는 이상 탐지 기반의 비디오 포렌식 방법을 제안합니다. 이 방법은 실제, 라벨이 없는 데이터만으로 훈련될 수 있습니다. 우리는 시간적 동기화를 포착하는 특징 집합을 사용하여 비디오 프레임과 소리 간의 오디오-시각적 특징 시퀀스를 생성하기 위한 자기회귀 모델을 훈련시킵니다. 테스트 시에는 모델이 낮은 확률을 부여한 비디오를 표시합니다. 완전히 실제 비디오로만 훈련되었음에도 불구하고, 우리의 모델은 조작된 음성 비디오 검출 작업에서 강력한 성능을 보입니다. 프로젝트 사이트: https://cfeng16.github.io/audio-visual-forensics