HyperAIHyperAI

Command Palette

Search for a command to run...

多语言基准测试评估AI九语种临床文本理解能力

近日,麻省总医院布里格姆医院研究团队在《自然·生物医学工程》发表研究,推出多语言临床文本基准测试工具BRIDGE。该工具旨在全面评估大语言模型在真实医疗场景中对电子健康档案、临床病例及医患对话等文本的理解能力,涵盖九种语言。传统医疗AI评估多依赖标准化考试题库,难以反映复杂多变的临床实际。BRIDGE通过构建覆盖多语境的评测框架,系统检验了95款大语言模型在分诊、信息抽取、诊断、预后及医保编码等全诊疗流程中的表现。测试结果显示,在标准化医学考试中表现顶尖的模型,在BRIDGE基准测试中的得分仅为44.8%,凸显出现有模型在处理临床细微语境时的显著不足。研究同步发布公开排行榜,已收录107款模型,供临床医生与开发者实时比对性能。该基准揭示了人工智能在不同医学专科及语言环境下的性能差异,为医疗AI选型与优化提供客观依据,有助于推动技术向非英语患者公平扩展,加速临床智能化落地。

相关链接