16 days ago
SMMILE:一种专家驱动的多模态医学情境学习基准
Melanie Rieff; Maya Varma; Ossian Rabow; Subathra Adithan; Julie Kim; Ken Chang; Hannah Lee; Nidhi Rohatgi; Christian Bluethgen; Mohamed S. Muneer; Jean-Benoit Delbrouck; Michael Moor

摘要
尽管多模态上下文学习(ICL)在医学等领域具有巨大潜力,但其研究仍相对不足。临床医生经常遇到需要从有限示例中进行适应的多样化、专业化任务,例如从少数相关先前病例中提取见解或考虑一组有限的鉴别诊断。虽然多模态大语言模型(MLLMs)已经在医学视觉问答(VQA)方面取得了进展,但它们从上下文中学习多模态任务的能力仍然知之甚少。为此,我们引入了SMMILE,这是首个由专家驱动的医学多模态ICL基准测试。11位医学专家精心挑选了问题,每个问题都包含一个多模态查询和作为任务演示的多模态上下文示例。SMMILE涵盖了111个问题(517个问题-图像-答案三元组),涉及6个医学专科和13种成像模式。此外,我们还引入了增强版SMMILE++,其中包含1038个排列组合的问题。对15种MLLMs的全面评估表明,大多数模型在医学任务中的多模态ICL能力表现平平甚至较差。在开放性评估中,ICL仅在SMMILE上平均提升了8%,在SMMILE++上平均提升了9.4%。我们观察到这些模型对无关上下文示例的敏感性:即使一个噪声或无关示例也可能导致性能下降高达9.5%。此外,示例顺序表现出近期偏差,即最相关的示例放在最后可以显著提升性能,最高可达71%。我们的研究结果揭示了当前MLLMs在从上下文中学习多模态医学任务时的关键局限性和偏差。