11 天前

基于高效网络与视觉Transformer的视频深度伪造检测

Davide Coccomini, Nicola Messina, Claudio Gennaro, Fabrizio Falchi
基于高效网络与视觉Transformer的视频深度伪造检测
摘要

深度伪造(Deepfakes)是通过数字技术对图像进行篡改,生成看似真实却虚假的视觉内容。随着深度生成模型的迅猛发展,当前的虚假图像或视频主要利用变分自编码器(Variational Autoencoders, VAEs)或生成对抗网络(Generative Adversarial Networks, GANs)生成。这些技术日益普及且精度不断提高,导致生成的伪造视频极难被识别。传统上,卷积神经网络(Convolutional Neural Networks, CNNs)被广泛用于视频深度伪造检测任务,其中基于EfficientNet B7的方法取得了最佳性能。本研究聚焦于人脸深度伪造检测,原因在于当前生成技术在合成逼真人脸方面已达到极高的真实度。具体而言,我们结合多种视觉Transformer(Vision Transformers)架构,并采用卷积型EfficientNet B0作为特征提取器,取得了与近期先进视觉Transformer方法相当的检测效果。与现有最先进方法不同,我们的方法未使用知识蒸馏(distillation)或集成学习(ensemble)策略。此外,我们提出一种简明高效的推理机制,基于简单的投票机制,有效处理同一视频帧中存在多个面部的情况。实验结果表明,所提出的最优模型在DeepFake Detection Challenge(DFDC)数据集上取得了0.951的AUC值和88.0%的F1分数,性能接近当前最先进水平,充分验证了方法的有效性与实用性。

基于高效网络与视觉Transformer的视频深度伪造检测 | 最新论文 | HyperAI超神经