2 个月前

如何设计用于野外音视频活跃发言人检测的三阶段架构

Köpüklü, Okan ; Taseska, Maja ; Rigoll, Gerhard
如何设计用于野外音视频活跃发言人检测的三阶段架构
摘要

成功的主动说话者检测需要一个三阶段的流程:(i) 对片段中所有说话者的音视频编码,(ii) 在每一帧内参考说话者与背景说话者之间的相互关系建模,以及 (iii) 参考说话者的时序建模。该流程的每个阶段对最终架构的性能都起着重要作用。基于一系列受控实验,本研究提出了若干关于音视频主动说话者检测的实际指南。相应地,我们提出了一种新的架构称为ASDNet(Audio-Visual Active Speaker Detection Network),该架构在AVA-ActiveSpeaker数据集上实现了93.5%的mAP(Mean Average Precision),大幅超过了第二名4.7%。我们的代码和预训练模型已公开发布。

如何设计用于野外音视频活跃发言人检测的三阶段架构 | 最新论文 | HyperAI超神经