16 天前

你真的这么认为吗?基于内容驱动的音视频深度伪造数据集及多模态时序伪造定位方法

Zhixi Cai, Kalin Stefanov, Abhinav Dhall, Munawar Hayat
你真的这么认为吗?基于内容驱动的音视频深度伪造数据集及多模态时序伪造定位方法
摘要

由于其对社会具有重大影响,深度伪造检测在计算机视觉领域正受到广泛关注。现有的大多数深度伪造检测方法依赖于视频整体或随机位置上的身份信息、面部属性,以及基于对抗性扰动的时空特征修改,同时保持内容语义不变。然而,一些高级的深度伪造技术可能仅对视频或音频的极小片段进行篡改,从而导致内容语义发生根本性改变,例如从情感倾向上实现完全反转。为此,本文提出一个面向时序伪造定位任务的内容驱动型音视频深度伪造数据集,命名为局部音视频深度伪造数据集(Localized Audio-Visual DeepFake, LAV-DF)。该数据集通过策略性地实施内容驱动的音视频篡改,旨在改变整个视频的情感极性。为评估该数据集性能,我们构建了一个基于3D卷积神经网络(3DCNN)的基准方法,称为边界感知时序伪造检测(Boundary Aware Temporal Forgery Detection, BA-TFD),该方法通过对比学习、边界匹配以及帧分类等多种损失函数进行联合引导。通过广泛的定量与定性分析,实验结果表明,所提出的BA-TFD方法在时序伪造定位与深度伪造检测任务中均展现出优异的性能。