2 个月前
用于广义音视频零样本分类和检索的协同多模态嵌入
Parida, Kranti Kumar ; Matiyali, Neeraj ; Guha, Tanaya ; Sharma, Gaurav

摘要
我们提出了一种用于视频分类和检索的零样本学习(ZSL)任务的视听多模态方法。尽管近年来零样本学习已得到广泛研究,但主要局限于视觉模态和图像。我们证明了在视频的零样本学习中,音频和视觉模态都非常重要。由于目前缺乏可用于研究该任务的数据集,我们还构建了一个包含33个类别的适当多模态数据集,其中包含156,416个视频,这些视频来自现有的大规模音频事件数据集。通过实证研究,我们展示了在使用嵌入学习方法的多模态扩展时,加入音频模态可以提高零样本分类和检索任务的性能。此外,我们提出了一种新颖的方法,利用联合学习的模态注意力网络预测“主导”模态。我们在半监督设置下学习注意力机制,因此不需要为各个模态提供额外的显式标签。我们还提供了对特定模态注意力的定性验证,该方法成功泛化到了未见过的测试类别。