
摘要
被操纵的视频通常在其视觉信号和音频信号之间存在细微的不一致。我们提出了一种基于异常检测的视频取证方法,该方法能够识别这些不一致,并且仅使用真实、未标记的数据进行训练。我们训练了一个自回归模型来生成音视频特征序列,所使用的特征集能够捕捉视频帧与声音之间的时序同步关系。在测试阶段,我们将模型赋予低概率的视频标记为可疑。尽管完全使用真实视频进行训练,我们的模型在检测被操纵的语音视频任务上仍表现出色。项目网站:https://cfeng16.github.io/audio-visual-forensics