
摘要
视频中的活跃说话者检测旨在将视频帧中可见的源面部与音频模态中的底层语音关联起来。建立这种语音-面部关系的主要信息来源有两方面:i) 视觉活动及其与语音信号的交互;ii) 以面部和语音形式在不同模态间共现的说话者身份。这两种方法各有其局限性:视听活动模型容易被其他频繁出现的发声活动(如笑和咀嚼)所混淆,而基于说话者身份的方法则受限于视频中是否包含足够的区分信息来建立语音-面部关联。由于这两种方法是独立的,我们在本研究中探讨了它们的互补性质。我们提出了一种新颖的无监督框架,用于指导说话者的跨模态身份关联与视听活动相结合,以实现活跃说话者检测。通过在两个基准数据集上的娱乐媒体视频进行实验,即AVA活跃说话者数据集(电影)和视觉人物聚类数据集(电视剧),我们展示了两种方法的简单后期融合可以提高活跃说话者检测的性能。