2 个月前
AVGZSLNet:基于多模态嵌入重构标签特征的音频视觉泛化零样本学习
Mazumder, Pratik ; Singh, Pravendra ; Parida, Kranti Kumar ; Namboodiri, Vinay P.

摘要
在本文中,我们提出了一种新颖的方法,用于多模态环境下的广义零样本学习,其中测试时出现的音频/视频类别在训练过程中未曾见过。我们通过将音频和视频嵌入与相应的类别标签文本特征空间对齐,利用文本嵌入的语义相关性实现零样本学习。我们的方法采用了跨模态解码器和复合三元损失函数。跨模态解码器施加了一个约束条件,即可以从数据点的音频和视频嵌入中重建类别标签的文本特征。这有助于将音频和视频嵌入向类别标签的文本嵌入靠拢。复合三元损失函数则利用了音频、视频和文本嵌入,帮助同一类别的嵌入更加接近,同时将不同类别的嵌入推开,从而在多模态环境下提升网络性能。重要的是,即使在测试时某个模态缺失,我们的多模态零样本学习方法仍然有效。我们在广义零样本分类和检索任务上测试了该方法,并展示了其在单个模态存在以及多个模态共存的情况下均优于其他模型的表现。我们通过与先前方法进行比较并使用多种消融实验验证了该方法的有效性。