11일 전
Lip Sync의 중요성: 새로운 다중모달 위조 탐지 기법
{Hsin-Min Wang, Yu Tsao, Yan-Tsung Peng, Sarwar Khan, Ammarah Hashmi, Sahibzada Adil Shahzad}

초록
딥페이크 기술은 크게 발전했지만, 이는 공동체에 대해 이중적인 성격을 지닌 도구이다. 한편으로는 오래된 영화의 고전적 콘텐츠를 복원하는 등 긍정적인 용도로 활용될 수 있으나, 다른 한편으로는 대중을 조작하기 위한 위조 영상 제작이나 동의 없이 성적 콘텐츠를 유포하는 악용 목적에도 사용될 수 있다. 이러한 부정적 사용을 방지하기 위해 수많은 공개 데이터셋과 단모달(단일 모달) 기반의 딥러닝 모델이 활용되면서, 위조 영상 탐지에 뛰어난 성능을 발휘하는 연구들이 활발히 진행되어 왔다. 그러나 이러한 기존 방법들은 시각적 및 청각적 정보를 동시에 조작하는 다모달(다중 모달) 위조 영상, 즉 시각과 음성의 동시 조작을 효과적으로 탐지하지 못하는 한계를 지닌다. 본 연구는 이를 보완하기 위해 새로운 입술 읽기 기반의 다모달 딥페이크 탐지 방법을 제안한다. 이 방법은 ‘Lip Sync Matters’라는 이름을 가진 것으로, 영상에서 추출한 입술 시퀀스와 Wav2lip 모델을 통해 음성에서 생성된 합성 입술 시퀀스 사이의 불일치를 고급 수준의 의미적 특징(semantic features)을 활용해 탐지함으로써 위조 영상을 식별한다. 실험 결과, 공개된 다모달 FakeAVCeleb 데이터셋에서 제안된 방법이 기존의 단모달, 앙상블 및 다모달 방법들을 모두 상회하는 성능을 보였다.