2 个月前
基于不确定性的多模态融合在主动说话人检测中的多目标优化
Pouthier, Baptiste ; Pilati, Laurent ; Gudupudi, Leela K. ; Bouveyron, Charles ; Precioso, Frederic

摘要
目前,多项研究表明,在检测活跃发言者时,结合视频和音频数据可以显著提高效果。然而,任一模态都有可能通过引入不可靠或误导性的信息而对视听融合产生负面影响。本文提出了一种多目标学习问题框架下的活跃发言者检测方法,利用一种新颖的自注意力、基于不确定性的多模态融合方案来充分发挥各模态的优势。实验结果表明,所提出的多目标学习架构在提升mAP(平均精度均值)和AUC(曲线下面积)分数方面优于传统方法。我们进一步证明了我们的融合策略在活跃发言者检测中超越了其他学科报道的各种模态融合方法。最后,我们展示了该方法在AVA-ActiveSpeaker数据集上的表现显著优于现有技术水平。