7 个月前

摘要

在广义零样本学习（Generalized Zero-Shot Learning, GZSL）中，类别的集合被分为已见类别和未见类别。训练过程依赖于已见类别和未见类别的语义特征以及仅已见类别的视觉表示，而测试则使用已见类别和未见类别的视觉表示。目前的方法通过从视觉空间到语义空间的学习转换来解决GZSL问题，探索了假设即在语义空间和视觉空间中类别的分布相对相似。然而，这些方法倾向于将未见测试的视觉表示转换为某个已见类别的语义特征，而不是正确的未见类别的语义特征，导致GZSL分类的准确性较低。最近，生成对抗网络（Generative Adversarial Networks, GAN）已被用于从未见类别的语义特征合成其视觉表示——合成后的已见类别和未见类别的表示随后用于训练GZSL分类器。这种方法已被证明可以提高GZSL分类的准确性，但无法保证合成的视觉表示能够在多模态循环一致性的方式下重建其原始的语义特征。这种约束可能导致合成的视觉表示不能很好地代表其语义特征。在本文中，我们提出了一种基于新正则化的GAN训练方法，该方法强制生成的视觉特征重建其原始的语义特征。一旦我们的模型在这种多模态循环一致性的语义兼容性下进行训练，我们就可以为已见类别以及更重要的未见类别合成更具代表性的视觉表示。我们所提出的这种方法在多个公开数据集上展示了该领域的最佳GZSL分类结果。

源 PDF