17 天前
丰富的语义提升少样本学习
Mohamed Afham, Salman Khan, Muhammad Haris Khan, Muzammal Naseer, Fahad Shahbaz Khan

摘要
人类学习得益于多模态输入,这些输入通常包含丰富的语义信息(例如,在学习某个物体时同时获得其属性描述)。这种机制使我们能够仅通过极少量的视觉样本就掌握可泛化的概念。然而,当前的少样本学习(Few-Shot Learning, FSL)方法通常使用数值化的类别标签来表示物体类别,这些标签并未提供关于所学概念的丰富语义信息。在本工作中,我们表明,通过引入“类别级别”的语言描述——这类描述可仅以极低的标注成本获取——能够显著提升FSL的性能。我们的核心思想是:在给定支持集(support set)和查询样本(queries)的基础上,构建一种瓶颈视觉特征(即混合原型,hybrid prototype),并在训练过程中将其作为辅助任务,用于生成对应类别的语言描述。为此,我们设计了一种基于Transformer的前向与反向编码机制,以建立视觉令牌与语义令牌之间的关联,从而有效编码两种模态间的复杂关系。通过强制原型保留关于类别描述的语义信息,我们实际上对视觉特征施加了一种正则化约束,从而提升了模型在推理阶段对新类别(novel classes)的泛化能力。此外,该策略为学习到的表示引入了人类先验知识,确保模型在视觉与语义概念之间建立忠实的对应关系,进而增强了模型的可解释性。在四个数据集上的实验以及消融研究结果表明,有效建模丰富的语义信息对提升少样本学习性能具有显著优势。