2 个月前
分离“啁啾”与“聊天”:自监督声音和语言的视觉定位
Mark Hamilton, Andrew Zisserman, John R. Hershey, William T. Freeman

摘要
我们介绍了DenseAV,一种新颖的双编码器定位架构,该架构仅通过观看视频即可学习高分辨率、语义丰富且音视频对齐的特征。研究表明,DenseAV能够在没有显式定位监督的情况下发现词语的“含义”和声音的“位置”。此外,它还能自动识别并区分这两种关联类型而无需监督。我们展示了DenseAV的定位能力源自一种新的多头特征聚合算子,该算子直接对比密集图像和音频表示以进行对比学习。相比之下,许多其他学习“全局”音视频表示的系统无法定位词语和声音。最后,我们贡献了两个新数据集,以通过语音和声音提示的语义分割来改进AV表示的评估。在这些及其他数据集上,我们证明DenseAV在语音和声音提示的语义分割方面显著优于现有技术。DenseAV在跨模态检索中使用的参数少于ImageBind的一半,但仍大幅超越了此前的最佳水平。项目页面:https://aka.ms/denseav