Base de données clinique à grande échelle pour accélérer l’IA en recherche médicale
Depuis plusieurs années, Zi Fu Wang, ancien doctorant de l’Université d’Illinois à Urbana-Champaign et cofondateur de Keiji.AI, s’est consacré à l’application de l’intelligence artificielle (IA) dans les essais cliniques. Ses travaux ont donné naissance à plusieurs projets innovants, notamment TrialMind [1], LEADS [2], TrialGPT [3], DSWizard [4,5] et InformGen [6], des outils visant à améliorer la conception, le recrutement, l’analyse et la documentation des essais cliniques. Au fil de ces recherches, Wang a identifié des défis majeurs freinant l’adoption concrète de l’IA dans ce domaine : l’absence de mécanismes d’évaluation fiables pour les grands modèles, un fossé de connaissances entre les experts pharmaceutiques et les spécialistes de l’IA, ainsi qu’un manque de données structurées de haute qualité et de benchmarks adaptés aux tâches réelles des essais cliniques. En effet, bien que des entreprises comme Citeline proposent des bases de données commerciales coûteuses (parfois des millions de dollars par an pour les grands laboratoires), ces données restent inaccessibles pour la majorité des chercheurs. Quant aux données publiques comme ClinicalTrials.gov, elles couvrent uniquement les essais enregistrés aux États-Unis, laissant de nombreuses études internationales et publiées non intégrées. Face à ces limitations, Wang et son équipe ont lancé un projet ambitieux : la création de TrialPanorama [7], une base de données massive et structurée, comprenant 1 657 476 enregistrements d’essais cliniques provenant de 15 sources mondiales, ainsi que plus de 9 000 revues systématiques synthétisant ces essais. Cette base de données intègre des éléments clés tels que les protocoles d’étude, les interventions, les indications thérapeutiques, les biomarqueurs et les critères d’évaluation, tout en étant alignée sur des ontologies médicales standard comme DrugBank et MedDRA. Cette approche garantit une cohérence sémantique et une capacité d’extension, essentielles pour l’entraînement et l’évaluation des modèles d’IA. Par ailleurs, l’équipe a conçu un benchmark original, couvrant huit tâches critiques dans le cycle de vie des essais cliniques : recherche de littérature, sélection d’études, synthèse des preuves, conception des groupes d’intervention, définition des critères d’inclusion/exclusion, choix des endpoints, estimation de la taille d’échantillon et évaluation de la faisabilité. Des expérimentations menées sur cinq grands modèles d’IA ont révélé que, bien que ces modèles montrent une certaine capacité en « zero-shot » (sans entraînement spécifique), leurs performances restent insuffisantes pour des applications cliniques à haut risque, où la rigueur et la fiabilité sont impératives. Ce travail ne se limite pas à fournir une ressource de données : il constitue un écosystème complet pour le développement, l’entraînement et l’évaluation de systèmes d’IA spécialisés, en particulier des agents verticaux dédiés aux essais cliniques. Les applications de TrialPanorama sont multiples. Elle peut servir de plateforme d’exploration de connaissances pour les équipes de recherche pharmaceutique, permettant d’identifier rapidement les traitements existants, les cibles thérapeutiques en cours d’étude ou les lacunes scientifiques. Elle fournit également un socle solide pour entraîner des modèles linguistiques spécialisés, et le benchmark publié offre un cadre standardisé pour mesurer l’évolution des performances des systèmes d’IA. Enfin, grâce à son intégration possible via le protocole MCP (Model Context Protocol), TrialPanorama facilite l’implémentation rapide dans des agents intelligents, favorisant ainsi leur déploiement dans les flux de travail réels. Pour Wang, ce projet représente bien plus qu’une avancée technique. Il a été marqué par une prise de conscience fondamentale : les solutions IA doivent être conçues à partir des vrais besoins des utilisateurs — médecins, chercheurs, responsables de développement — et non à partir de démonstrations technologiques séduisantes mais inapplicables. Cette démarche, basée sur l’écoute, la collaboration interdisciplinaire et une pensée produit, a été au cœur de son parcours. C’est naturellement que, en lien avec son directeur de thèse Jimeng Sun, il a cofondé Keiji.AI, une entreprise dédiée à transformer les recherches académiques en outils concrets. Aujourd’hui, la société collabore avec des grands laboratoires (Takeda, AbbVie, Regeneron), des fournisseurs de données réelles (Medidata, Guardant Health) et des CRO (IQVIA), tout en développant activement des agents d’IA spécialisés dans les essais cliniques, fondés sur TrialPanorama.