8 个月前

摘要

被操纵的视频通常在其视觉信号和音频信号之间存在细微的不一致。我们提出了一种基于异常检测的视频取证方法，该方法能够识别这些不一致，并且仅使用真实、未标记的数据进行训练。我们训练了一个自回归模型来生成音视频特征序列，所使用的特征集能够捕捉视频帧与声音之间的时序同步关系。在测试阶段，我们将模型赋予低概率的视频标记为可疑。尽管完全使用真实视频进行训练，我们的模型在检测被操纵的语音视频任务上仍表现出色。项目网站：https://cfeng16.github.io/audio-visual-forensics

源 PDF