
摘要
主动说话人检测(Active Speaker Detection, ASD)旨在识别视频中每一帧的说话人。ASD 从两个上下文中提取音频和视觉信息进行推理:长期同说话人上下文和短期跨说话人上下文。长期同说话人上下文建模同一说话人的时序依赖关系,而短期跨说话人上下文则建模同一场景中不同说话人之间的互动。这两种上下文相互补充,有助于推断出当前的活跃说话人。基于这些观察,我们提出了一种简单而有效的长短期上下文网络(Long-Short Context Network, LoCoNet),该网络能够同时建模长期同说话人上下文和短期跨说话人上下文。我们利用自注意力机制来建模长期同说话人上下文,因为其在建模长距离依赖关系方面表现出色;而使用卷积块来捕捉局部模式以建模短期跨说话人上下文。大量实验表明,LoCoNet 在多个数据集上实现了最先进的性能,在 AVA-ActiveSpeaker 数据集上达到了 95.2% 的平均精度(mAP)(提高了 +1.1%),在哥伦比亚数据集上达到了 68.1% 的 mAP(提高了 +22%),在 Talkies 数据集上达到了 97.2% 的 mAP(提高了 +2.8%),在 Ego4D 数据集上达到了 59.7% 的 mAP(提高了 +8.0%)。此外,在具有挑战性的多说话人场景或活跃说话人的面部远小于同一场景中其他面部的情况下,LoCoNet 在 AVA-ActiveSpeaker 数据集上的表现优于之前的最先进方法 3.4%。代码将在 https://github.com/SJTUwxz/LoCoNet_ASD 发布。