6 个月前

多模态表征

自然语言处理

Souhail Bakkali Zuheng Ming Mickael Coustaty Marçal Rusiñol Oriol Ramos Terrades

摘要

近年来，从文档数据中进行多模态学习取得了显著进展，因其能够将语义上富有意义的特征作为先验知识预训练至可学习的下游任务中。本文通过融合语言与视觉线索，学习跨模态表示，同时考虑模态内部与模态之间的关系，以解决文档分类问题。与将不同模态特征合并至统一表示空间的传统方法不同，本文提出的方法侧重于高层级的模态间与模态内交互，通过有效注意力流挖掘相关语义信息。所提出的学习目标结合了模态内与模态间的对齐任务，其中每项任务的相似性分布通过在联合表示空间中压缩正样本对的同时对比负样本对来计算。在多个公开文档分类数据集上的大量实验表明，该模型在小规模与大规模数据集上均展现出优异的性能与良好的泛化能力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

自然语言处理

Souhail Bakkali Zuheng Ming Mickael Coustaty Marçal Rusiñol Oriol Ramos Terrades

摘要

近年来，从文档数据中进行多模态学习取得了显著进展，因其能够将语义上富有意义的特征作为先验知识预训练至可学习的下游任务中。本文通过融合语言与视觉线索，学习跨模态表示，同时考虑模态内部与模态之间的关系，以解决文档分类问题。与将不同模态特征合并至统一表示空间的传统方法不同，本文提出的方法侧重于高层级的模态间与模态内交互，通过有效注意力流挖掘相关语义信息。所提出的学习目标结合了模态内与模态间的对齐任务，其中每项任务的相似性分布通过在联合表示空间中压缩正样本对的同时对比负样本对来计算。在多个公开文档分类数据集上的大量实验表明，该模型在小规模与大规模数据集上均展现出优异的性能与良好的泛化能力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供