정말 그렇게 말하고 싶으신가요? 콘텐츠 기반 오디오-비주얼 딥페이크 데이터셋 및 시계열 위조 탐지용 다중모달 방법

깊어진 가짜 콘텐츠(딥페이크) 탐지 기술은 사회적 영향력이 크기 때문에 컴퓨터 비전 분야에서 적극적인 관심을 받고 있다. 기존의 대부분의 딥페이크 탐지 방법은 영상 전체 또는 무작위 위치에서 정체성, 얼굴 특징, 그리고 적대적 편향(advantage perturbation) 기반의 시공간적 변형을 활용하며, 콘텐츠의 의미는 유지하는 방식을 취한다. 그러나 고도로 발전된 딥페이크는 영상 또는 오디오의 일부 작은 구간만을 조작하여, 예를 들어 감성의 극성(sentiment polarity)을 완전히 뒤바꾸는 방식으로 콘텐츠의 의미를 변형할 수 있다. 본 연구에서는 이러한 문제를 해결하기 위해, 시간적 위조 위치 탐지를 위한 학습 목적에 특별히 설계된 콘텐츠 기반 음성-영상 딥페이크 데이터셋인 ‘Localized Audio Visual DeepFake(LAV-DF)’를 제안한다. 구체적으로, 전체 영상의 감성 극성을 전환할 수 있도록 전략적으로 콘텐츠 기반의 음성-영상 조작을 수행하였다. 제안된 데이터셋의 기준 성능 평가를 위한 베이스라인 모델로는 경계 인식 시간적 위조 탐지(Boundary Aware Temporal Forgery Detection, BA-TFD)라는 3DCNN 기반 모델을 사용하였으며, 이는 대비 학습(contrastive learning), 경계 매칭, 프레임 분류를 위한 손실 함수에 의해 안내된다. 광범위한 정량적 및 정성적 분석을 통해 제안된 방법이 시간적 위조 위치 탐지 및 딥페이크 탐지 작업에서 우수한 성능을 발휘함을 입증하였다.