
摘要
成功的主动说话者检测需要一个三阶段的流程:(i) 对片段中所有说话者的音视频编码,(ii) 在每一帧内参考说话者与背景说话者之间的相互关系建模,以及 (iii) 参考说话者的时序建模。该流程的每个阶段对最终架构的性能都起着重要作用。基于一系列受控实验,本研究提出了若干关于音视频主动说话者检测的实际指南。相应地,我们提出了一种新的架构称为ASDNet(Audio-Visual Active Speaker Detection Network),该架构在AVA-ActiveSpeaker数据集上实现了93.5%的mAP(Mean Average Precision),大幅超过了第二名4.7%。我们的代码和预训练模型已公开发布。