
摘要
多模态大语言模型(MLLMs)在医学诊断领域展现出显著潜力。然而,它们在眼科等专业领域面临关键挑战,尤其是注释粒度的碎片化和临床推理逻辑的不一致性,这些因素阻碍了精确的跨模态理解。本文介绍了FundusExpert,一种具有集成定位-诊断推理能力的眼科专用MLLM,以及通过智能眼底引擎系统构建的FundusGen数据集。眼底引擎系统自动化实现定位,并利用基于MLLM的语义扩展技术,在单张眼底图像中整合全局疾病分类、局部对象检测和细粒度特征分析。此外,通过构建与临床对齐的认知链,该系统引导模型生成可解释的推理路径。经过FundusGen指令数据微调后的FundusExpert,在眼科问答任务中表现出最佳性能,比400亿参数的MedRegA平均准确率高出26.6%。它还在零样本报告生成任务中表现出色,临床一致性达到77.0%,远超GPT-4o的47.6%。此外,我们揭示了数据质量和模型能力之间的缩放规律(scaling law),证明FundusGen中的认知对齐注释提高了数据利用率。通过将区域级定位与诊断推理链相结合,我们的工作开发了一种可扩展且与临床对齐的MLLM,并探索了特定MLLM中视觉-语言鸿沟的弥合途径。本项目可在以下网址找到:[此https链接]。 注:文中“scaling law”为专业术语,特此保留英文标注以确保信息完整。