Amélioration de l’extraction d’information ouverte grâce aux grands modèles linguistiques : une étude sur l’incertitude des démonstrations

La tâche d'extraction d'informations ouverte (Open Information Extraction, OIE) vise à extraire des faits structurés à partir de textes non structurés, généralement sous la forme de triples (sujet, relation, objet). Malgré le potentiel des grands modèles linguistiques (LLM), tels que ChatGPT, en tant que solveurs de tâches générales, ceux-ci peinent à égaler les méthodes supervisées de pointe dans les tâches OIE en raison de deux problèmes clés. Premièrement, les LLM ont du mal à distinguer le contexte irrelevan du contenu pertinent pour les relations, et à produire des sorties structurées, en raison des contraintes liées au fine-tuning du modèle. Deuxièmement, les LLM génèrent leurs réponses de manière autoregressive, basée sur des probabilités, ce qui entraîne une faible confiance dans les relations prédites. Dans cet article, nous évaluons les capacités des LLM à améliorer la tâche OIE. Plus précisément, nous proposons diverses stratégies d'apprentissage contextuel afin d'améliorer la capacité des LLM à suivre les instructions, ainsi qu'un module de quantification de l'incertitude des démonstrations pour renforcer la confiance des relations générées. Nos expériences sur trois jeux de données de référence OIE montrent que notre approche se distingue favorablement des méthodes supervisées établies, tant sur le plan quantitatif que qualitatif.