
摘要
现有大多数方法通过在已见类别内对齐视觉-语义表示来解决零样本视频分类问题,但这种策略限制了模型在未见类别上的泛化能力。为提升模型的泛化性能,本文提出一种端到端框架,旨在同时保持已见类别与未见类别表示的对齐性与均匀性。具体而言,我们设计了一种监督对比损失函数,能够同步实现视觉-语义特征的对齐(alignment)以及促进学习到的特征分布趋于均匀(uniformity)。与现有仅关注对齐的方法不同,本文引入均匀性约束,以保留现有特征的最大信息量,从而提高未观测特征落在已观测数据邻域的概率。此外,我们提出一种类别生成器,通过插值与外推已见类别的特征,合成未见类别的特征表示。同时,本文引入两个量化指标——接近度(closeness)与离散度(dispersion),分别用于度量对齐性与均匀性,作为衡量模型泛化能力的新标准。实验结果表明,所提方法在UCF101和HMDB51数据集上分别相对于当前最先进方法实现了28.1%和27.0%的相对性能提升。代码已公开。