2달 전

AV-Lip-Sync+: AV-HuBERT을 활용한 멀티모달 불일치를 이용한 비디오 딥페이크 검출

Sahibzada Adil Shahzad; Ammarah Hashmi; Yan-Tsung Peng; Yu Tsao; Hsin-Min Wang
AV-Lip-Sync+: AV-HuBERT을 활용한 멀티모달 불일치를 이용한 비디오 딥페이크 검출
초록

다중 모드 조작(오디오-비주얼 딥페이크라고도 함)은 단일 모드 딥페이크 검출기가 멀티미디어 콘텐츠에서 위조를 감지하는 것을 어렵게 만듭니다. 허위 선전과 가짜 뉴스의 확산을 방지하기 위해서는 신속한 감지가 필수적입니다. 어느 하나의 모드(즉, 시각적 또는 청각적)에 대한 손상은 두 정보를 동시에 활용할 수 있는 다중 모드 모델을 통해만 발견될 수 있습니다. 이전 방법들은 주로 단일 모드 비디오 증거학을 채택하여 위조 검출을 위한 지도 사전 학습을 사용하였습니다. 본 연구에서는 오디오와 시각적 모드 간의 불일치를 활용하여 다중 모드 비디오 위조를 감지하기 위한 새로운 방법을 제안합니다. 이 방법은 변환기 기반 자기 지도 학습(SSL) 사전 학습된 오디오-비주얼 HuBERT(AV-HuBERT) 모델을 시각적 및 음성 특징 추출기에 사용하고, 다중 스케일 시간적 컨볼루션 신경망을 통해 오디오와 시각적 모드 간의 시간적 상관관계를 포착합니다. AV-HuBERT는 입술 영역에서만 시각적 특징을 추출하므로, 우리는 또한 얼굴 특징을 활용하고 딥페이크 생성 과정에서 발생하는 공간적 및 시간적 아티팩트를 포착하기 위해 다른 변환기 기반 비디오 모델을 채택하였습니다. 실험 결과, 우리의 모델은 모든 기존 모델보다 우수하며 FakeAVCeleb와 DeepfakeTIMIT 데이터셋에서 새로운 최고 성능(SOTA)을 달성하였습니다.

AV-Lip-Sync+: AV-HuBERT을 활용한 멀티모달 불일치를 이용한 비디오 딥페이크 검출 | 최신 연구 논문 | HyperAI초신경