HyperAIHyperAI

Command Palette

Search for a command to run...

如何设计用于野外音视频活跃发言人检测的三阶段架构

Köpüklü Okan ; Taseska Maja ; Rigoll Gerhard

摘要

成功的主动说话者检测需要一个三阶段的流程:(i) 对片段中所有说话者的音视频编码,(ii) 在每一帧内参考说话者与背景说话者之间的相互关系建模,以及 (iii) 参考说话者的时序建模。该流程的每个阶段对最终架构的性能都起着重要作用。基于一系列受控实验,本研究提出了若干关于音视频主动说话者检测的实际指南。相应地,我们提出了一种新的架构称为ASDNet(Audio-Visual Active Speaker Detection Network),该架构在AVA-ActiveSpeaker数据集上实现了93.5%的mAP(Mean Average Precision),大幅超过了第二名4.7%。我们的代码和预训练模型已公开发布。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供