8 个月前

摘要

从未包含在训练数据中的类别中学习分类视频数据，即基于视频的零样本学习，是一项具有挑战性的任务。我们认为，视频数据中音频和视觉模态之间的自然对齐为学习区分性的多模态表示提供了丰富的训练信号。针对相对较少探索的视听零样本学习任务，我们提出了一种利用跨模态注意力机制从视听数据中学习多模态表示的方法，并通过文本标签嵌入来实现从已见类别到未见类别的知识迁移。进一步地，在我们的广义视听零样本学习设置中，我们将所有训练类别纳入测试时的搜索空间，这些类别作为干扰项增加了任务难度，同时也使该设置更加贴近实际应用场景。由于该领域缺乏统一的基准测试集，我们引入了三个不同规模和难度的视听数据集（VGGSound、UCF 和 ActivityNet）上的（广义）零样本学习基准测试集，确保未见测试类别不会出现在用于骨干深度模型监督训练的数据集中。通过比较多种相关且近期的方法，我们展示了所提出的 AVCA 模型在这三个数据集上均达到了最先进的性能。代码和数据可在以下网址获取：\url{https://github.com/ExplainableML/AVCA-GZSL}。

源 PDF