5 个月前

摘要

放射学诊断错误——包括漏诊、无意视盲以及沟通失误——在临床实践中仍然普遍存在。这些问题往往源于局部异常的遗漏、全局上下文信息的不足，以及报告语言的不一致性。这些挑战在三维（3D）影像中尤为突出，因为临床医生需要对每次扫描的数百张切片进行逐一分析。要有效应对这些难题，亟需具备精准的局部异常检测能力、全局体积级推理能力，以及语义一致的自然语言报告生成能力的系统。然而，现有的3D视觉-语言模型难以同时满足上述三项需求，既缺乏对空间关系的局部-全局协同理解能力，又难以应对未经规范整理的放射科报告中存在的语言多样性和噪声问题。为此，我们提出MedVista3D——一种面向3D CT影像分析的多尺度语义增强型视觉-语言预训练框架。为实现疾病联合检测与整体化解读，MedVista3D在完整体积上下文中，通过局部与全局图像-文本对齐机制，实现细粒度表征学习。为缓解报告语言的变异性问题，我们引入语言模型重写策略，并构建了“放射科语义匹配库”（Radiology Semantic Matching Bank），以支持语义感知的对齐。实验结果表明，MedVista3D在零样本疾病分类、报告检索及医学视觉问答任务上均达到当前最优性能，并在器官分割与预后预测等下游任务中展现出良好的迁移能力。相关代码与数据集将公开发布。

源 PDF