多模态鉴伪方法 R-MFDN

R-MFDN 全称 Reference-assisted Multimodal Forgery Detection Network 是一种多模态鉴伪方法,由复旦大学、中电金信及上海智能视觉计算协同创新中心团队于 2024 年提出。这种方法利用丰富的身份信息来挖掘跨模态不一致性,以进行伪造检测。 R-MFDN 由多模态特征提取模块、特征信息融合模块和伪造鉴别模块三个主要部分组成,通过结合视频编码、音频编码以及时序 Transformer 模型来提取和融合特征,进而进行伪造鉴别。

该方法的创新之处在于它不仅关注单一模态的伪造检测,而是通过跨模态对比学习损失函数和身份驱动的对比学习损失函数来增强模型对伪造内容的敏感性。这种方法在多模态深度伪造场景中,尤其是在 AI 换脸和拟声等身份伪造场景中,展现出了较强的鉴别能力。

相关论文「Identity-Driven Multimedia Forgery Detection via Reference Assistance」已被多媒体领域顶级国际会议 ACM MultiMedia 2024 接收,并在大会上进行了口头报告。该研究还构建了一个高质量的 AI 换脸拟声数据集 IDForge,可通过申请获取数据。