2 个月前
大语言模型作为桥梁:重构基于多模态的命名实体识别
Li, Jinyuan ; Li, Han ; Sun, Di ; Wang, Jiahao ; Zhang, Wenkun ; Wang, Zan ; Pan, Gang

摘要
基于图像的多模态命名实体识别(GMNER)是一项新兴的多模态任务,旨在识别命名实体、实体类型及其对应的视觉区域。GMNER任务具有两个挑战性特征:1) 社交媒体中图像与文本对之间的弱关联导致了相当一部分命名实体无法被定位。2) 粗粒度指代表达式(通常用于类似任务,如短语定位和指代表达式理解)与细粒度命名实体之间存在差异。本文提出了一种统一框架——RiVEG,通过利用大型语言模型(LLMs)作为连接桥梁,将GMNER重新定义为联合MNER-VE-VG任务。这种重新定义带来了两个优势:1) 它保持了最佳的MNER性能,并消除了使用对象检测方法预提取区域特征的需求,从而自然地解决了现有GMNER方法的两大主要局限。2) 引入了实体扩展表达式和视觉蕴含(VE)模块,统一了视觉定位(VG)和实体定位(EG)。这使得RiVEG能够轻松继承任何当前或未来多模态预训练模型的视觉蕴含和视觉定位能力。大量实验表明,RiVEG在现有的GMNER数据集上优于最先进的方法,并在所有三个子任务中分别取得了10.65%、6.21%和8.83%的绝对领先优势。