2 个月前

如何设计用于野外音视频活跃发言人检测的三阶段架构

Köpüklü, Okan ; Taseska, Maja ; Rigoll, Gerhard

摘要

成功的主动说话者检测需要一个三阶段的流程：(i) 对片段中所有说话者的音视频编码，(ii) 在每一帧内参考说话者与背景说话者之间的相互关系建模，以及 (iii) 参考说话者的时序建模。该流程的每个阶段对最终架构的性能都起着重要作用。基于一系列受控实验，本研究提出了若干关于音视频主动说话者检测的实际指南。相应地，我们提出了一种新的架构称为ASDNet（Audio-Visual Active Speaker Detection Network），该架构在AVA-ActiveSpeaker数据集上实现了93.5%的mAP（Mean Average Precision），大幅超过了第二名4.7%。我们的代码和预训练模型已公开发布。