11 天前

LASER:基于唇部关键点辅助的说话人检测以增强鲁棒性

Le Thien Phuc Nguyen, Zhuoran Yu, Yong Jae Lee
LASER:基于唇部关键点辅助的说话人检测以增强鲁棒性
摘要

主动说话人检测(Active Speaker Detection, ASD)旨在复杂视觉场景中识别正在说话的个体。尽管人类能够通过将唇部动作与音频信号进行匹配来轻松判断说话者,但当前的ASD模型难以建立这种跨模态对应关系,尤其在音频与唇部动作不同步时,常将非说话实例误判为说话状态。为解决这一局限,本文提出一种增强鲁棒性的唇部关键点辅助说话人检测方法——LASER(Lip landmark Assisted Speaker dEtection for Robustness)。与仅依赖面部帧的模型不同,LASER在训练过程中显式关注唇部运动,通过引入唇部关键点信息提升检测性能。具体而言,针对一段人脸轨迹,LASER利用轻量级检测器提取帧级视觉特征以及唇部关键点的二维坐标。这些坐标被编码为密集特征图,从而提供唇部位置的空间结构信息。考虑到在低分辨率、遮挡或极端视角等挑战性条件下,关键点检测器可能失效,本文进一步引入辅助一致性损失,促使基于唇部感知特征与仅基于面部特征的预测结果保持一致,从而确保在缺乏可靠唇部数据时仍能维持稳定性能。在多个公开数据集上的大量实验表明,LASER显著优于现有最先进模型,尤其在音频与视觉不同步的场景中表现突出,充分验证了其在真实视频环境下的鲁棒性。代码已开源,地址为:\url{https://github.com/plnguyen2908/LASER_ASD}。

LASER:基于唇部关键点辅助的说话人检测以增强鲁棒性 | 最新论文 | HyperAI超神经