2 个月前

UniCon:统一上下文网络用于鲁棒的主动说话人检测

Zhang, Yuanhang ; Liang, Susan ; Yang, Shuang ; Liu, Xiao ; Wu, Zhongqin ; Shan, Shiguang ; Chen, Xilin
UniCon:统一上下文网络用于鲁棒的主动说话人检测
摘要

我们介绍了一种新的高效框架——统一上下文网络(UniCon),用于稳健的主动说话人检测(ASD)。传统的ASD方法通常分别对每个候选人的预裁剪面部轨迹进行操作,未能充分考虑候选人之间的关系。这在低分辨率面部、多个候选人等具有挑战性的场景中可能会限制性能。我们的解决方案是一种新颖的、统一的框架,专注于联合建模多种上下文信息:空间上下文用于指示每个候选人的面部位置和尺度;关系上下文用于捕捉候选人之间的视觉关系并对比其视听亲和力;时间上下文用于聚合长期信息并平滑局部不确定性。基于这些信息,我们的模型通过统一的过程优化所有候选人,以实现稳健可靠的ASD。我们在不同设置下对几个具有挑战性的ASD基准进行了详尽的消融研究。特别是,我们的方法在这两个具有挑战性的子集上显著优于现有最先进方法:一个包含三位候选说话人的子集,另一个包含小于64像素的面部图像。总体而言,我们的UniCon在AVA-ActiveSpeaker验证集上实现了92.0%的平均精度均值(mAP),首次在这个具有挑战性的数据集上超过90%。项目网站:https://unicon-asd.github.io/。

UniCon:统一上下文网络用于鲁棒的主动说话人检测 | 最新论文 | HyperAI超神经