2 个月前

学习鲁棒的视觉-语义嵌入

Yao-Hung Hubert Tsai; Liang-Kang Huang; Ruslan Salakhutdinov
学习鲁棒的视觉-语义嵌入
摘要

现有的许多图像和文本联合嵌入学习方法仅利用配对图像及其文本属性的监督信息。借鉴深度神经网络中无监督学习近期取得的成功,我们提出了一种端到端的学习框架,能够跨域提取更加鲁棒的多模态表示。该方法结合了表示学习模型(如自编码器)和跨域学习准则(如最大均值差异损失),以学习语义特征和视觉特征的联合嵌入。我们引入了一种新的无监督数据适应推理技术,用于构建涵盖标记数据和未标记数据的更全面的嵌入。我们在“Animals with Attributes”和“Caltech-UCSD Birds 200-2011”数据集上评估了我们的方法,涉及的应用范围广泛,包括从归纳设置到演绎设置的零样本和少样本图像识别与检索。实验证明,我们的框架在所考虑的许多任务上优于当前最先进的方法。

学习鲁棒的视觉-语义嵌入 | 最新论文 | HyperAI超神经