Extraction de relations fondée sur la génération augmentée par récupération

L’extraction d’information (IE) constitue un processus transformatif qui convertit les données textuelles non structurées en un format structuré grâce à des méthodologies d’extraction d’entités et de relations (RE). L’identification de la relation entre une paire d’entités joue un rôle fondamental dans ce cadre. Malgré l’existence de nombreuses techniques d’extraction de relations, leur efficacité dépend fortement de l’accès à des données étiquetées et de ressources informatiques importantes. À cet égard, les grands modèles linguistiques (LLM) apparaissent comme des solutions prometteuses ; toutefois, ils peuvent produire des réponses hallucinées en raison des données utilisées lors de leur entraînement. Pour surmonter ces limitations, cette étude propose une méthode d’extraction de relations basée sur la génération augmentée par récupération (RAG4RE), offrant ainsi une voie pour améliorer les performances des tâches d’extraction de relations.Cette recherche évalue l’efficacité de notre approche RAG4RE en utilisant différents LLM. Grâce à l’exploitation de benchmarks établis tels que TACRED, TACREV, Re-TACRED et les jeux de données SemEval RE, notre objectif est de mener une évaluation complète de la performance de RAG4RE. Plus précisément, nous utilisons des LLMs de premier plan, notamment Flan T5, Llama2 et Mistral, dans notre analyse. Les résultats montrent que notre approche RAG4RE dépasse significativement les performances des méthodes traditionnelles d’extraction de relations basées uniquement sur les LLM, notamment sur le jeu de données TACRED et ses variantes. En outre, notre méthode se distingue par des performances remarquables par rapport aux approches antérieures d’extraction de relations sur les jeux de données TACRED et TACREV, soulignant ainsi son efficacité et son potentiel à faire progresser les tâches d’extraction de relations dans le traitement du langage naturel.