2 个月前

新加坡国立大学HLT团队关于ActivityNet Challenge 2021 AVA（发言人）的报告

{Haizhou Li, Mike Zheng Shou, Xinyuan Qian, Rohan Kumar Das, Zexu Pan, Ruijie Tao}

摘要

主动说话人检测（Active Speaker Detection, ASD）旨在识别视觉场景中正在说话的说话人，该场景可能包含一个或多个说话人。成功的ASD依赖于对短时与长时音频及视觉信息的准确理解，以及音视频模态间的有效交互。与以往仅依赖短时特征进行即时决策的系统不同，本文提出一种新型框架——TalkNet，该框架通过综合考虑短时与长时特征来做出判断。TalkNet由音频与视觉时序编码器构成，用于特征表示；引入音视频交叉注意力机制以实现跨模态交互；并采用自注意力机制捕捉长期的说话证据。实验结果表明，TalkNet在AVA-ActiveSpeaker验证集和测试集上分别相较于当前最优系统取得了3.5%和3.0%的性能提升。相关代码、模型及数据日志将对外公开发布。