
摘要
基于度量的元学习技术已成功应用于少样本分类问题。在本文中,我们提出利用跨模态信息来增强基于度量的少样本学习方法。视觉和语义特征空间在定义上具有不同的结构。对于某些概念,视觉特征可能比文本特征更丰富且更具区分性;而对于其他概念,则可能是相反的情况。此外,在图像分类中,当视觉信息的支持有限时,语义表示(从无监督文本语料库中学习)可以提供强大的先验知识和上下文,帮助模型进行学习。基于以上两种直觉,我们提出了一种机制,可以根据待学习的新图像类别自适应地结合来自两种模态的信息。通过一系列实验,我们展示了通过这种自适应组合两种模态的方法,我们的模型在所有测试的基准数据集和少样本场景中显著优于当前的单模态少样本学习方法和模态对齐方法。实验还表明,我们的模型能够有效地调整其对两种模态的关注点。特别是在样本数量非常少的情况下,性能提升尤为显著。