15 天前
MINTIME:多身份不变尺寸视频深度伪造检测
Davide Alessandro Coccomini, Giorgos Kordopatis Zilos, Giuseppe Amato, Roberto Caldelli, Fabrizio Falchi, Symeon Papadopoulos, Claudio Gennaro

摘要
在本文中,我们提出了一种名为 MINTIME 的视频深度伪造检测方法,该方法能够捕捉视频中时空异常,并有效处理同一视频内存在多个个体以及人脸尺寸变化的情况。以往的方法通常忽略此类信息,或采用简单的后验聚合策略(如平均值或最大值操作),或仅以单一身份(通常是最大人脸)进行推理。相比之下,本文提出的方法基于时空 TimeSformer 与卷积神经网络(CNN)主干网络的结合,从视频中多个身份的人脸序列中捕捉时空异常。这一目标通过一种身份感知注意力机制实现,该机制基于掩码操作独立关注每个面部序列,并支持视频级别的信息聚合。此外,本文引入两种新型嵌入方式:(i)时间一致位置嵌入(Temporal Coherent Positional Embedding),用于编码每个面部序列的时间信息;(ii)尺寸嵌入(Size Embedding),用于将人脸尺寸表示为相对于视频帧尺寸的比率。这些改进使我们的系统在真实场景中表现出色,能够学习如何有效聚合多身份信息,而这一点在现有大多数方法中常被忽略。在 ForgeryNet 数据集上,MINTIME 在包含多个个体的视频中实现了最高达 14% 的 AUC 提升,展现出优异的跨伪造类型与跨数据集泛化能力。相关代码已公开,可访问:https://github.com/davide-coccomini/MINTIME-Multi-Identity-size-iNvariant-TIMEsformer-for-Video-Deepfake-Detection。