17 天前

Gemini 模型在医学领域的应用能力

Khaled Saab, Tao Tu, Wei-Hung Weng, Ryutaro Tanno, David Stutz, Ellery Wulczyn, Fan Zhang, Tim Strother, Chunjong Park, Elahe Vedadi, Juanma Zambrano Chaves, Szu-Yeu Hu, Mike Schaekermann, Aishwarya Kamath, Yong Cheng, David G. T. Barrett, Cathy Cheung, Basil Mustafa, Anil Palepu, Daniel McDuff, Le Hou, Tomer Golany, Luyang Liu, Jean-baptiste Alayrac, Neil Houlsby, Nenad Tomasev, Jan Freyberg, Charles Lau, Jonas Kemp, Jeremy Lai, Shekoofeh Azizi, Kimberly Kanada, SiWai Man, Kavita Kulkarni, Ruoxi Sun, Siamak Shakeri, Luheng He, Ben Caine, Albert Webson, Natasha Latysheva, Melvin Johnson, Philip Mansfield, Jian Lu, Ehud Rivlin, Jesper Anderson, Bradley Green, Renee Wong, Jonathan Krause, Jonathon Shlens, Ewa Dominowska, S. M. Ali Eslami, Claire Cui, Oriol Vinyals, Koray Kavukcuoglu, James Manyika, Jeff Dean, Demis Hassabis, Yossi Matias, Dale Webster, Joelle Barral, Greg Corrado, Christopher Semturs, S. Sara Mahdavi, Juraj Gottweis, Alan Karthikesalingam, Vivek Natarajan
Gemini 模型在医学领域的应用能力
摘要

在众多医疗应用领域实现卓越表现,对人工智能(AI)提出了巨大挑战,这要求模型具备先进的推理能力、获取最新医学知识的能力,以及对复杂多模态数据的深入理解。Gemini系列模型凭借其在多模态与长上下文推理方面的强大通用能力,为医学领域带来了令人振奋的前景。基于Gemini的核心优势,我们推出了Med-Gemini——一个专为医学场景深度优化的多模态模型家族。该系列模型具备无缝调用网络搜索的能力,并可通过自定义编码器高效适配新型模态。我们在14项医学基准测试中对Med-Gemini进行了评估,在其中10项任务上取得了新的最先进(State-of-the-Art, SoTA)性能,且在所有可进行直接比较的基准上均显著超越GPT-4系列模型,差距常常十分显著。在广受关注的MedQA(USMLE)基准测试中,表现最优的Med-Gemini模型实现了91.1%的准确率,创下新纪录,其背后得益于一种创新的不确定性引导搜索策略。在包括《新英格兰医学杂志》图像挑战赛(NEJM Image Challenges)和MMMU(健康与医学)在内的7项多模态基准测试中,Med-Gemini相较GPT-4V平均提升了44.5%的相对性能。我们通过在长篇去标识化健康记录中的“大海捞针”式信息检索任务以及医学视频问答任务中取得的最先进表现,充分验证了Med-Gemini在长上下文处理方面的卓越能力,其效果甚至超越了此前专门设计的方法,且仅依赖上下文学习(in-context learning)即可实现。此外,Med-Gemini在实际应用潜力方面也展现出显著优势:其在医学文本摘要等任务上的表现已超越人类专家;同时,在多模态医学对话、医学研究辅助与医学教育等多个方向也展现出极具前景的应用潜力。综上所述,我们的实验结果为Med-Gemini的巨大潜力提供了有力证据。然而,在该安全关键领域实现真实世界部署之前,仍需开展更加严格和全面的评估工作。