ITA : Alignements image-texte pour la reconnaissance d'entités nommées multi-modale

Récemment, la reconnaissance d'entités nommées multimodale (MNER) a suscité beaucoup d'intérêt. La plupart des travaux utilisent les informations visuelles à travers des représentations visuelles au niveau des régions obtenues à partir d'un détecteur d'objets préformé et s'appuient sur un mécanisme d'attention pour modéliser les interactions entre les représentations visuelles et textuelles. Cependant, il est difficile de modéliser ces interactions car les représentations visuelles et textuelles sont formées séparément sur des données de leur propre modalité et ne sont pas alignées dans le même espace. Comme les représentations textuelles jouent un rôle crucial en MNER, dans cet article, nous proposons l'Alignement Image-Texte (ITA) pour aligner les caractéristiques visuelles dans l'espace textuel, afin que le mécanisme d'attention basé sur les transformers puisse être mieux exploité dans les plongements textuels préformés.L'ITA aligne d'abord l'image en étiquettes d'objets régionaux, en légendes au niveau de l'image et en caractères optiques comme contextes visuels, puis concatène ces éléments avec les textes d'entrée pour former une nouvelle entrée intermodale. Cette entrée est ensuite alimentée dans un modèle de plongement textuel préformé. Cela facilite la modélisation de l'interaction entre les deux modalités par le module d'attention du modèle de plongement textuel préformé, car elles sont toutes deux représentées dans l'espace textuel. L'ITA aligne également les distributions de sortie prédites à partir des vues intermodales et textuelles, ce qui rend le modèle MNER plus pratique pour traiter des entrées purement textuelles et plus robuste aux bruits provenant des images.Dans nos expériences, nous montrons que les modèles ITA peuvent atteindre une précision de pointe sur des jeux de données de reconnaissance d'entités nommées multimodale, même sans information visuelle.