효율적인 네트워크와 비전 트랜스포머를 결합한 영상 딥페이크 탐지

딥페이크는 현실감 있는 가짜 이미지를 조작하는 디지털 기술의 산물이다. 심층 생성 모델의 놀라운 발전으로 인해 오늘날 가짜 이미지나 영상은 변분 오토인코더(Variational Autoencoders, VAEs) 또는 생성적 적대 신경망(Generative Adversarial Networks, GANs)을 통해 생성되고 있다. 이러한 기술은 점점 더 접근 가능하고 정확해지면서, 탐지하기 매우 어려운 고도로 사실감 있는 가짜 영상이 등장하고 있다. 기존에는 컨볼루션 신경망(Convolutional Neural Networks, CNNs)이 영상 딥페이크 탐지에 주로 사용되어 왔으며, 특히 EfficientNet B7 기반의 방법에서 가장 뛰어난 성능을 기록했다. 본 연구에서는 인간 얼굴의 생성 기술이 매우 정교해지고 있는 상황을 고려하여, 얼굴을 대상으로 한 영상 딥페이크 탐지에 초점을 맞추었다. 구체적으로, 다양한 유형의 비전 트랜스포머(Vision Transformers)를 컨볼루션 기반의 EfficientNet B0(특징 추출기로 사용)와 결합하여, 최근의 비전 트랜스포머 기반 최신 방법들과 비슷한 성능을 달성하였다. 기존의 최첨단 기법들과 달리, 본 연구는 정교화(distillation)나 앙상블(ensemble) 기법을 사용하지 않았다. 또한, 동일한 영상 장면 내에 여러 얼굴이 존재하는 경우를 처리하기 위해 간단한 투표 기반의 직관적인 추론 절차를 제안하였다. 최적의 모델은 AUC 0.951과 F1 점수 88.0%를 기록하며, 딥페이크 탐지 챌린지(DeepFake Detection Challenge, DFDC)에서의 최신 기준 수준에 매우 근접한 성능을 보였다.