6 个月前

摘要

深度伪造（Deepfakes）是通过数字技术对图像进行篡改，生成看似真实却虚假的视觉内容。随着深度生成模型的迅猛发展，当前的虚假图像或视频主要利用变分自编码器（Variational Autoencoders, VAEs）或生成对抗网络（Generative Adversarial Networks, GANs）生成。这些技术日益普及且精度不断提高，导致生成的伪造视频极难被识别。传统上，卷积神经网络（Convolutional Neural Networks, CNNs）被广泛用于视频深度伪造检测任务，其中基于EfficientNet B7的方法取得了最佳性能。本研究聚焦于人脸深度伪造检测，原因在于当前生成技术在合成逼真人脸方面已达到极高的真实度。具体而言，我们结合多种视觉Transformer（Vision Transformers）架构，并采用卷积型EfficientNet B0作为特征提取器，取得了与近期先进视觉Transformer方法相当的检测效果。与现有最先进方法不同，我们的方法未使用知识蒸馏（distillation）或集成学习（ensemble）策略。此外，我们提出一种简明高效的推理机制，基于简单的投票机制，有效处理同一视频帧中存在多个面部的情况。实验结果表明，所提出的最优模型在DeepFake Detection Challenge（DFDC）数据集上取得了0.951的AUC值和88.0%的F1分数，性能接近当前最先进水平，充分验证了方法的有效性与实用性。

源 PDF