2 个月前

AV-Lip-Sync+: 利用AV-HuBERT挖掘多模态不一致性以检测视频深度伪造

Sahibzada Adil Shahzad; Ammarah Hashmi; Yan-Tsung Peng; Yu Tsao; Hsin-Min Wang
AV-Lip-Sync+: 利用AV-HuBERT挖掘多模态不一致性以检测视频深度伪造
摘要

多模态操作(也称为音视频深度伪造)使得单模态深度伪造检测器在多媒体内容中难以识别伪造。为了防止虚假宣传和假新闻的传播,及时检测至关重要。无论是视觉还是听觉模态的损坏,只有通过能够同时利用这两种信息的多模态模型才能被发现。以往的方法主要采用单模态视频取证,并使用监督预训练进行伪造检测。本研究提出了一种基于多模态自监督学习(SSL)特征提取器的新方法,该方法通过利用音频和视觉模态之间的不一致性来进行多模态视频伪造检测。我们使用基于变压器的自监督学习预训练音视频HuBERT(AV-HuBERT)模型作为视觉和声学特征提取器,并采用多尺度时间卷积神经网络来捕捉音频和视觉模态之间的时间相关性。由于AV-HuBERT仅从唇部区域提取视觉特征,我们还采用了另一种基于变压器的视频模型来利用面部特征并捕捉在深度伪造生成过程中产生的空间和时间伪影。实验结果表明,我们的模型优于所有现有模型,并在FakeAVCeleb和DeepfakeTIMIT数据集上达到了新的最先进性能。

AV-Lip-Sync+: 利用AV-HuBERT挖掘多模态不一致性以检测视频深度伪造 | 最新论文 | HyperAI超神经