科学家构建全球临床试验大规模数据库,助力垂直AI Agent研发
美国伊利诺伊大学香槟分校博士毕业生、Keiji.AI 联合创始人王子丰及其团队,近期构建了大规模结构化临床试验数据库 TrialPanorama,收录全球15个数据源的165万条临床试验记录,并整合超过9000篇系统评价论文,为人工智能在医药研发中的深度应用提供了关键基础设施。该数据库系统梳理了试验设计、干预措施、适应症、生物标志物及结局指标等核心要素,并与DrugBank、MedDRA等权威医学本体对齐,确保数据规范性与可扩展性,填补了当前临床试验领域高质量、标准化数据资源的空白。 在实际应用中,制药企业常依赖昂贵的商业数据库(如Citeline),而公开数据如ClinicalTrials.gov仅覆盖美国注册试验,难以满足全球研发需求。TrialPanorama通过多源整合与标准化处理,显著提升了数据的广度与可用性。更进一步,研究团队设计并发布了一套面向临床试验任务的大模型评测基准,涵盖系统评价与试验设计两大类共八项关键任务,包括研究检索、筛选、证据总结、入排标准制定、终点选择、样本量估算等,为AI模型能力评估提供了统一、专业且贴近真实场景的测试框架。 实验结果显示,尽管当前主流大模型具备一定的零样本能力,但在高严谨性、高风险的临床试验任务中表现仍不理想,难以满足实际应用需求。这凸显了构建垂直领域AI系统所面临的双重挑战:既需高质量数据支撑,也需精准的任务定义与评估机制。TrialPanorama不仅为模型训练提供了坚实基础,更通过配套评测体系推动AI技术从“演示”走向“可用”。 该成果对临床研发具有深远意义。一方面,数据库可赋能AI驱动的知识发现,帮助研究人员快速掌握特定适应症的治疗进展与研发格局,优化试验方案设计;另一方面,其结构化特性使其成为训练垂直领域语言模型的理想资源。尤为重要的是,该平台支持通过模型上下文协议(MCP)服务器实现快速集成,为构建高可靠性、高专业度的临床试验AI Agent提供了关键数据支撑。 王子丰坦言,早期他以为将大模型与Agent“搭起来”就能解决临床问题,但深入一线后发现,真实需求往往未被准确转化为AI可解的问题。合规限制、工作流程嵌入难度、跨领域沟通壁垒等现实挑战,远超技术本身。这一认知转变促使他重新定义问题,强调“从用户痛点出发”的产品思维。这也成为本次研究最宝贵的经验。 基于此,王子丰联合创办Keiji.AI,致力于将学术成果转化为真实世界应用。公司已与武田、艾伯维、再生元等制药企业,以及Medidata、Guardant Health、IQVIA等CRO与真实世界数据平台建立合作,其核心平台TrialMind已集成TrialPanorama数据库,支持从方案设计到患者招募的全流程智能化加速。目前公司正积极推进融资与团队扩张,目标是打造下一代临床试验AI基础设施,真正实现“从问题中来,到应用中去”的科研闭环。