Extraction d'entités nommées et de relations avec un système de recherche multi-modal

La reconnaissance d'entités nommées multi-modale (NER) et l'extraction de relations (RE) visent à exploiter les informations pertinentes provenant des images pour améliorer les performances de la NER et de la RE. La plupart des efforts existants se sont concentrés principalement sur l'extraction directe d'informations potentiellement utiles à partir des images (telles que les caractéristiques au niveau des pixels, les objets identifiés et les légendes associées). Cependant, ces processus d'extraction peuvent ne pas être conscients du savoir, entraînant une information qui peut ne pas être hautement pertinente. Dans cet article, nous proposons un cadre innovant basé sur la recherche multi-modale (MoRe). MoRe comprend un module de recherche textuelle et un module de recherche basé sur l'image, qui récupèrent respectivement des connaissances liées au texte d'entrée et à l'image dans le corpus de connaissances. Ensuite, les résultats de la recherche sont envoyés respectivement aux modèles textuel et visuel pour effectuer des prédictions. Enfin, un module Mixture of Experts (MoE) combine les prédictions issues des deux modèles pour prendre la décision finale. Nos expériences montrent que notre modèle textuel et notre modèle visuel peuvent atteindre des performances de pointe sur quatre ensembles de données NER multi-modale et un ensemble de données RE multi-modale. Avec MoE, les performances du modèle peuvent être encore améliorées, et notre analyse démontre les avantages de l'intégration des indices textuels et visuels pour ces tâches.