11 天前

AVTENet:基于音视频Transformer的集成网络,利用多专家机制实现视频深度伪造检测

Ammarah Hashmi, Sahibzada Adil Shahzad, Chia-Wen Lin, Yu Tsao, Hsin-Min Wang
AVTENet:基于音视频Transformer的集成网络,利用多专家机制实现视频深度伪造检测
摘要

社交媒体平台上广泛传播的伪造内容已成为一个严峻的社会问题,亟需加强监管,并为研究界带来新的挑战。近年来,高度逼真的深度伪造(deepfake)视频的泛滥,凸显了音频与视觉伪造所带来的威胁。以往大多数针对AI生成假视频的检测研究仅依赖视觉模态或音频模态。尽管文献中已有部分方法尝试结合音频与视觉模态以检测伪造视频,但这些方法尚未在包含声学与视觉双重篡改的多模态深度伪造数据集上进行系统性评估。此外,现有方法大多基于卷积神经网络(CNN),存在检测精度较低的问题。受Transformer在多个领域取得成功启发,为应对深度伪造技术带来的挑战,本文提出一种基于音频-视觉Transformer的集成网络框架(Audio-Visual Transformer-based Ensemble Network, AVTENet),该框架同时考虑声学篡改与视觉篡改,以实现高效的视频伪造检测。具体而言,所提出的模型融合了多种纯Transformer结构的变体,分别捕捉视频、音频以及音视频联合的显著特征,通过多模态特征融合达成预测一致性。为验证模型性能,我们采用近期发布的基准多模态音视频伪造数据集FakeAVCeleb。为进一步深入分析,我们在FakeAVCeleb数据集的多个测试集上对AVTENet及其变体以及多种现有方法进行了全面评估。实验结果表明,本文提出的最优模型在FakeAVCeleb数据集的Testset-I和Testset-II上均显著优于现有方法,达到了当前最先进的检测性能。

AVTENet:基于音视频Transformer的集成网络,利用多专家机制实现视频深度伪造检测 | 最新论文 | HyperAI超神经