
摘要
未见动作识别(UAR)旨在在没有训练样本的情况下识别新的动作类别。以往的方法主要关注数据集内部的已见/未见划分,而本文提出了一种利用大规模训练源实现通用表示(UR)的管道,该方法可以推广到更加现实的跨数据集未见动作识别(CD-UAR)场景。我们首先将UAR视为一个广义多实例学习(GMIL)问题,并通过分布核从大规模的ActivityNet数据集中发现“构建块”。通过在共享空间中保留关键的视觉和语义组件,实现了能够高效推广至新数据集的UR。预测的UR示例可以通过简单的语义适应进行改进,然后在测试过程中直接使用UR识别未见过的动作。无需进一步训练,广泛的实验表明该方法在UCF101和HMDB51基准上取得了显著的改进。