
초록
딥페이크(“딥 러닝” + “위조”)는 AI 알고리즘을 통해 합성된 영상이다. 비록娱乐적인 용도로 활용될 수 있지만, 연설을 위조하거나 허위 정보를 확산하는 데 악용될 수도 있다. 딥페이크를 생성하는 과정은 시각적 요소와 청각적 요소 모두를 변조하는 방식을 포함한다. 시각적 딥페이크 탐지에 대한 연구는 다양한 탐지 방법과 데이터셋을 도출해냈지만, 청각적 딥페이크(예: 텍스트-음성 합성 또는 음성 변환 시스템을 통한 합성 음성) 및 시각적·청각적 모달 간의 관계에 대한 연구는 상대적으로 소홀히 다뤄져왔다. 본 연구에서는 시각적·청각적 딥페이크의 공동 탐지라는 새로운 탐지 과제를 제안하며, 시각적 및 청각적 모달 간 내재된 동기화 특성을 활용할 경우 딥페이크 탐지 성능 향상에 기여할 수 있음을 보여준다. 실험 결과, 제안하는 공동 탐지 프레임워크가 독립적으로 학습된 모델보다 우수한 성능을 보이며, 예측되지 않은 유형의 딥페이크에 대해서도 뛰어난 일반화 능력을 갖는다는 점이 입증되었다.