11 天前

ICTCAS-UCAS-TAL 在 ActivityNet Challenge 2021 的 AVA-ActiveSpeaker 任务中的提交

{Shiguang Shan, Zhongqin Wu, Xiao Liu, Shuang Yang, Susan Liang, Yuanhang Zhang}
ICTCAS-UCAS-TAL 在 ActivityNet Challenge 2021 的 AVA-ActiveSpeaker 任务中的提交
摘要

本报告简要介绍了我们在ActivityNet Challenge 2021中参与AVA主动说话者检测(Active Speaker Detection, ASD)任务的方法。我们的解决方案——扩展统一上下文网络(Extended Unified Context Network,简称Extended UniCon),基于一种专为鲁棒性说话者检测设计的新颖统一上下文网络(Unified Context Network, UniCon)。该网络通过融合多种类型的上下文信息,实现对所有候选目标的联合优化。我们在原始UniCon的基础上,对音频特征表示、时间建模架构以及损失函数设计进行了若干改进。最终,我们的最佳模型集成在AVA-ActiveSpeaker测试集上取得了93.4%的mAP(平均精度均值),且无需任何形式的预训练,创下新的最先进水平,目前在ActivityNet挑战赛排行榜上位居第一。

ICTCAS-UCAS-TAL 在 ActivityNet Challenge 2021 的 AVA-ActiveSpeaker 任务中的提交 | 最新论文 | HyperAI超神经