HyperAIHyperAI

Command Palette

Search for a command to run...

ITA : Alignements image-texte pour la reconnaissance d'entités nommées multi-modale

Yong Jiang Kewei Tu Xinyu Wang Min Gui Nguyen Bach

Résumé

Récemment, la reconnaissance d'entités nommées multimodale (MNER) a suscité beaucoup d'intérêt. La plupart des travaux utilisent les informations visuelles à travers des représentations visuelles au niveau des régions obtenues à partir d'un détecteur d'objets préformé et s'appuient sur un mécanisme d'attention pour modéliser les interactions entre les représentations visuelles et textuelles. Cependant, il est difficile de modéliser ces interactions car les représentations visuelles et textuelles sont formées séparément sur des données de leur propre modalité et ne sont pas alignées dans le même espace. Comme les représentations textuelles jouent un rôle crucial en MNER, dans cet article, nous proposons l'Alignement Image-Texte (ITA) pour aligner les caractéristiques visuelles dans l'espace textuel, afin que le mécanisme d'attention basé sur les transformers puisse être mieux exploité dans les plongements textuels préformés.L'ITA aligne d'abord l'image en étiquettes d'objets régionaux, en légendes au niveau de l'image et en caractères optiques comme contextes visuels, puis concatène ces éléments avec les textes d'entrée pour former une nouvelle entrée intermodale. Cette entrée est ensuite alimentée dans un modèle de plongement textuel préformé. Cela facilite la modélisation de l'interaction entre les deux modalités par le module d'attention du modèle de plongement textuel préformé, car elles sont toutes deux représentées dans l'espace textuel. L'ITA aligne également les distributions de sortie prédites à partir des vues intermodales et textuelles, ce qui rend le modèle MNER plus pratique pour traiter des entrées purement textuelles et plus robuste aux bruits provenant des images.Dans nos expériences, nous montrons que les modèles ITA peuvent atteindre une précision de pointe sur des jeux de données de reconnaissance d'entités nommées multimodale, même sans information visuelle.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp