11 天前

面向音视频主动说话人检测的多任务学习

{Shiguang Shan, Shuang Yang, Jingyun Xiao, Yuanhang Zhang}
面向音视频主动说话人检测的多任务学习
摘要

本报告阐述了我们参加ActivityNet Challenge 2019中主动说话人检测任务(任务B-2)的方案。我们提出了一种新型音视频融合模型,该模型基于预训练的3D-ResNet18视觉模型(用于唇读)和预训练的VGG-M声学模型(用于音频-视频同步)。该模型采用多任务学习范式,通过两种损失函数进行联合训练:一种对比损失(contrastive loss),用于强化主动说话人音频与视频特征之间的匹配性;另一种为标准交叉熵损失(cross-entropy loss),用于获得说话人/非说话人分类标签。在AVAActiveSpeaker验证集上,该模型取得了84.0%的mAP(平均精度均值)成绩。实验结果表明,预训练的特征嵌入具有良好的跨任务与跨数据格式迁移能力,同时验证了所提出的多任务学习策略的有效性。

面向音视频主动说话人检测的多任务学习 | 最新论文 | HyperAI超神经