8 个月前

摘要

近期，多模态命名实体识别（MNER）引起了广泛关注。大多数研究工作通过从预训练的对象检测器中获得区域级视觉表示来利用图像信息，并依赖注意力机制建模图像和文本表示之间的交互。然而，由于图像和文本表示分别在各自模态的数据上进行训练且未对齐在同一空间内，因此建模这种交互非常困难。鉴于文本表示在MNER中起着至关重要的作用，本文提出了一种新的方法——图像-文本对齐（Image-text Alignments, ITA），以将图像特征对齐到文本空间，从而更好地利用基于 Transformer 的预训练文本嵌入中的注意力机制。ITA首先将图像对齐为区域对象标签、图像级描述和光学字符作为视觉上下文，将其与输入文本连接形成新的跨模态输入，然后将其送入预训练的文本嵌入模型中。这使得预训练文本嵌入模型的注意力模块更容易建模两种模态之间的交互，因为它们都在同一文本空间内表示。此外，ITA进一步对齐了从跨模态输入和纯文本输入视图预测的输出分布，从而使MNER模型在处理纯文本输入时更具实用性，并且对来自图像的噪声更加鲁棒。实验结果表明，即使没有图像信息，ITA模型也能在多模态命名实体识别数据集上达到最先进的准确率。

源 PDF