8 个月前

多任务学习

多模态表征

Li Jinyuan ; Li Han ; Sun Di ; Wang Jiahao ; Zhang Wenkun ; Wang Zan ; Pan Gang

摘要

基于图像的多模态命名实体识别（GMNER）是一项新兴的多模态任务，旨在识别命名实体、实体类型及其对应的视觉区域。GMNER任务具有两个挑战性特征：1) 社交媒体中图像与文本对之间的弱关联导致了相当一部分命名实体无法被定位。2) 粗粒度指代表达式（通常用于类似任务，如短语定位和指代表达式理解）与细粒度命名实体之间存在差异。本文提出了一种统一框架——RiVEG，通过利用大型语言模型（LLMs）作为连接桥梁，将GMNER重新定义为联合MNER-VE-VG任务。这种重新定义带来了两个优势：1) 它保持了最佳的MNER性能，并消除了使用对象检测方法预提取区域特征的需求，从而自然地解决了现有GMNER方法的两大主要局限。2) 引入了实体扩展表达式和视觉蕴含（VE）模块，统一了视觉定位（VG）和实体定位（EG）。这使得RiVEG能够轻松继承任何当前或未来多模态预训练模型的视觉蕴含和视觉定位能力。大量实验表明，RiVEG在现有的GMNER数据集上优于最先进的方法，并在所有三个子任务中分别取得了10.65%、6.21%和8.83%的绝对领先优势。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多任务学习

多模态表征

Li Jinyuan ; Li Han ; Sun Di ; Wang Jiahao ; Zhang Wenkun ; Wang Zan ; Pan Gang

摘要

基于图像的多模态命名实体识别（GMNER）是一项新兴的多模态任务，旨在识别命名实体、实体类型及其对应的视觉区域。GMNER任务具有两个挑战性特征：1) 社交媒体中图像与文本对之间的弱关联导致了相当一部分命名实体无法被定位。2) 粗粒度指代表达式（通常用于类似任务，如短语定位和指代表达式理解）与细粒度命名实体之间存在差异。本文提出了一种统一框架——RiVEG，通过利用大型语言模型（LLMs）作为连接桥梁，将GMNER重新定义为联合MNER-VE-VG任务。这种重新定义带来了两个优势：1) 它保持了最佳的MNER性能，并消除了使用对象检测方法预提取区域特征的需求，从而自然地解决了现有GMNER方法的两大主要局限。2) 引入了实体扩展表达式和视觉蕴含（VE）模块，统一了视觉定位（VG）和实体定位（EG）。这使得RiVEG能够轻松继承任何当前或未来多模态预训练模型的视觉蕴含和视觉定位能力。大量实验表明，RiVEG在现有的GMNER数据集上优于最先进的方法，并在所有三个子任务中分别取得了10.65%、6.21%和8.83%的绝对领先优势。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供