2달 전
Lips Don't Lie: 얼굴 위조 검출을 위한 일반화되고 강건한 접근 방식
Haliassos, Alexandros ; Vougioukas, Konstantinos ; Petridis, Stavros ; Pantic, Maja

초록
현재의 딥러닝 기반 얼굴 변조 탐지기는 제약된 시나리오에서 뛰어난 성능을 보이지만, 미처 본 적 없는 조작 방법으로 생성된 샘플에 취약하다. 최근 일부 연구에서는 일반화 능력의 향상을 보였으나, 압축과 같은 일반적인 후처리 작업에 의해 쉽게 손상될 수 있는 신호에 의존하고 있다. 이 논문에서는 새로운 조작 방법에 대한 일반화 능력과 다양한 왜곡에 대한 견고성을 모두 갖춘 탐지 접근법인 LipForensics를 제안한다. LipForensics는 입 움직임에서 발생하는 고수준의 의미적 불규칙성을 목표로 하며, 이는 많은 생성 비디오에서 흔히 발견된다. 먼저 시공간 네트워크를 시각적 음성 인식(입술 읽기)을 수행하도록 사전 학습하여 자연스러운 입 움직임과 관련된 풍부한 내부 표현을 학습한다. 이후 시간적 네트워크는 실제와 변조 데이터의 고정된 입 움직임 임베딩에 대해 미세 조정(finetuning)되어, 저수준의 조작 특유의 아티팩트에 과적합하지 않고 입 움직임을 기반으로 가짜 비디오를 탐지할 수 있다. 광범위한 실험 결과는 이 간단한 접근법이 미처 본 적 없는 조작 방법에 대한 일반화 능력과 왜곡에 대한 견고성 측면에서 현행 최고 수준을 크게 초월하며, 그 성능을 결정짓는 요인들에 대해 명확한 통찰력을 제공함을 보여준다. 코드는 GitHub에서 이용 가능하다.