
摘要
主动说话人检测(Active Speaker Detection, ASD)旨在识别视觉场景中正在说话的说话人,该场景可能包含一个或多个说话人。成功的ASD依赖于对短时与长时音频及视觉信息的准确理解,以及音视频模态间的有效交互。与以往仅依赖短时特征进行即时决策的系统不同,本文提出一种新型框架——TalkNet,该框架通过综合考虑短时与长时特征来做出判断。TalkNet由音频与视觉时序编码器构成,用于特征表示;引入音视频交叉注意力机制以实现跨模态交互;并采用自注意力机制捕捉长期的说话证据。实验结果表明,TalkNet在AVA-ActiveSpeaker验证集和测试集上分别相较于当前最优系统取得了3.5%和3.0%的性能提升。相关代码、模型及数据日志将对外公开发布。