Medical Graph RAG : Vers un modèle linguistique massif médical sûr grâce à la génération augmentée par récupération graphique

Nous présentons un nouveau cadre de génération augmentée par recherche (RAG) basé sur les graphes, spécifiquement conçu pour le domaine médical, appelé \textbf{MedGraphRAG}, visant à renforcer les capacités des grands modèles linguistiques (LLM) dans la génération de réponses fondées sur des preuves médicales, améliorant ainsi la sécurité et la fiabilité lors du traitement de données médicales confidentielles. Le RAG basé sur les graphes (GraphRAG) exploite les LLM pour organiser les données RAG sous forme de graphes, offrant un fort potentiel pour extraire des insights globaux à partir de documents longs. Toutefois, son implémentation classique s'avère trop complexe pour une utilisation générale et ne permet pas de générer de réponses fondées sur des preuves, ce qui limite son efficacité dans le domaine médical. Pour étendre les capacités du GraphRAG au domaine médical, nous proposons deux techniques originales : une construction de graphe à triple lien et une méthode de recherche U-Retrieval. Dans notre construction de graphe, nous établissons une structure liée par trois éléments qui relie les documents des utilisateurs à des sources médicales fiables ainsi qu’à des vocabulaires contrôlés. Dans le processus de recherche, nous introduisons la méthode U-Retrieval, combinant une recherche précise haut-bas (Top-down) avec une révision descendante de la réponse (Bottom-up), afin d’équilibrer la prise en compte du contexte global et l’indexation précise. Ces approches permettent à la fois la récupération d’informations fiables et la génération de réponses complètes. Notre méthode a été validée sur 9 benchmarks de questions-réponses médicales, 2 benchmarks de vérification de faits santé, ainsi qu’un jeu de données collecté pour tester la génération de textes longs. Les résultats montrent que MedGraphRAG dépasse de manière cohérente les modèles de pointe sur tous les benchmarks, tout en garantissant que les réponses incluent des références documentées crédibles et des définitions précises. Le code source est disponible à l’adresse suivante : this https URL.