Command Palette

Search for a command to run...

2 个月前

MedVista3D:用于减少三维CT疾病检测、理解与报告中诊断错误的视觉-语言建模

Yuheng Li Yenho Chen Yuxiang Lai Jike Zhong Vanessa Wildman Xiaofeng Yang

MedVista3D:用于减少三维CT疾病检测、理解与报告中诊断错误的视觉-语言建模

摘要

放射学诊断错误——包括漏诊、无意视盲以及沟通失误——在临床实践中仍然普遍存在。这些问题往往源于局部异常的遗漏、全局上下文信息的不足,以及报告语言的不一致性。这些挑战在三维(3D)影像中尤为突出,因为临床医生需要对每次扫描的数百张切片进行逐一分析。要有效应对这些难题,亟需具备精准的局部异常检测能力、全局体积级推理能力,以及语义一致的自然语言报告生成能力的系统。然而,现有的3D视觉-语言模型难以同时满足上述三项需求,既缺乏对空间关系的局部-全局协同理解能力,又难以应对未经规范整理的放射科报告中存在的语言多样性和噪声问题。为此,我们提出MedVista3D——一种面向3D CT影像分析的多尺度语义增强型视觉-语言预训练框架。为实现疾病联合检测与整体化解读,MedVista3D在完整体积上下文中,通过局部与全局图像-文本对齐机制,实现细粒度表征学习。为缓解报告语言的变异性问题,我们引入语言模型重写策略,并构建了“放射科语义匹配库”(Radiology Semantic Matching Bank),以支持语义感知的对齐。实验结果表明,MedVista3D在零样本疾病分类、报告检索及医学视觉问答任务上均达到当前最优性能,并在器官分割与预后预测等下游任务中展现出良好的迁移能力。相关代码与数据集将公开发布。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供