HyperAIHyperAI

Command Palette

Search for a command to run...

MedXIAOHE:构建医学领域MLLMs的完整方案

摘要

我们提出MedXIAOHE,这是一个面向医疗领域的视觉-语言基础模型,旨在推动真实临床场景中通用医疗理解与推理能力的发展。MedXIAOHE在多种医疗基准测试中均达到当前最优性能,并在多项关键能力上超越了现有的主流闭源多模态系统。为实现这一目标,我们设计了一种面向实体的持续预训练框架,通过系统化组织异构医疗语料库,有效拓展知识覆盖范围,显著缩小长尾分布差距(如罕见病等低频病症)。在实现医疗专家级推理与交互方面,MedXIAOHE结合强化学习与工具增强的代理式训练机制,引入多样化的医学推理模式,支持具备可验证决策路径的多步诊断推理。为提升模型在真实场景中的可靠性,MedXIAOHE融合用户偏好评估标准、基于证据的推理机制以及低幻觉的长文本报告生成能力,显著增强了对临床指令的遵循程度。本文档公开了我们的实际设计选择、规模扩展洞察及评估框架,旨在为后续研究提供参考与启发。

一句话总结

字节跳动小荷医疗AI推出MedXIAOHE,这是一种采用实体感知持续预训练和工具增强代理训练的医疗视觉语言模型,旨在提升推理能力并减少幻觉,在真实临床诊断中表现优于闭源系统,输出可验证、基于证据的结果。

主要贡献

  • MedXIAOHE引入了一种实体感知的持续预训练框架,利用医学实体分类体系结构化异构医疗数据,提升罕见病覆盖范围,减少跨模态长尾知识缺口。
  • 该模型通过强化学习和工具增强代理训练实现专家级诊断推理,生成多步骤、可验证的决策轨迹,与临床工作流对齐。
  • 在30多个公开及内部基准测试中评估,MedXIAOHE达到最先进性能,并通过基于证据的生成、低幻觉率和遵循医学指令规范,展现更高可靠性。

引言

作者利用名为MedXIAOHE的医疗视觉语言基础模型,弥合基准测试表现与真实临床可用性之间的差距。以往的医疗VLM常在长尾病症、报告生成幻觉和评估协议不一致方面表现不佳——限制其在异构、高风险临床环境中的可靠性。MedXIAOHE引入实体感知持续预训练框架,组织多样化医疗数据以扩大知识覆盖范围,结合强化学习和工具增强代理训练,实现可验证、多步骤诊断推理。同时整合基于证据的生成和统一基准套件,采用标准化协议提升可复现性和临床相关评估。

数据集

作者使用精心整理的多模态医疗预训练语料库,总计约6400亿token,数据来源包括公开网络数据、授权医学文本、临床图像和开源数据集。构建与使用方式如下:

  • 数据集组成与来源

    • 公开网络:3100亿token,通过主题分类和更新的标题增强。
    • 授权书籍/论文:2800亿token,通过OCR提取,强调识别准确性。
    • 临床病变图像:280亿token。
    • 开源数据集:220亿token。
    • 总计:约6400亿token,质量与体积成反比(授权 > 临床 > 网络)。
  • 关键子集详情

    • 公开网络:轻量级去重 → 基于模型的质量过滤 → 文本标准化 → 图文相关性检查。
    • 授权文本:对扫描材料应用OCR;优先精细分类。
    • 临床图像:高分辨率,由放射科医生专家标注(病变定位、进展、鉴别笔记)。
    • 合成问答:基于医学知识图谱构建 — 原子问答(节点/边事实)和聚合问答(通过LLM合成多事实)。筛选标准为自包含性和低困惑度。
    • OCR图像:通过弱监督ViT-Base分类器筛选900万张医疗报告图像;经Seed1.5-VL蒸馏;增强10%旋转。
    • 定位数据:通过内部标注 + MLLM验证器生成,仅提取视觉定位实体。
    • 人工参与:医生标注图像(解剖结构、病变、疾病),然后LLM合成VQA对;通过通用VLM(相关性/合理性)和专家VLM推演过滤医学正确性。
  • 训练中的数据使用

    • 训练拆分:通过三阶段流水线清洗 — 全局去重(基于哈希)、基于规则的分块(滑动窗口)、基于模型的过滤(自举医疗FastText分类器,经LLM验证优化)。
    • 混合比例:未明确说明,但优先使用合成问答和临床图像数据以减少网络噪声。
    • 处理:文本标准化、长文档拆分、通过LLM提示重写标题、在多粒度生成指令对(描述性、诊断性、定位性、推理性)。
    • 标题质量:通过在人工标注规范上训练的GenRM过滤(解剖准确性、形态学精确性、证据定位)。
  • 裁剪与元数据

    • 文本:通过滑动窗口分块以控制输入长度。
    • 图像:从DICOM头或结构化报告中提取元数据(解剖结构、发现、严重程度、侧别);转换为JSON → LLM扩展为叙述性标题。
    • 定位:通过自动实体提取将视觉区域与文本关联,并验证图像内容。
    • OCR:保留真实世界失真(模糊、眩光、遮挡)以增强鲁棒性;通过基于规则的清理过滤噪声。
  • 中期训练与SFT/RL数据

    • 中期训练:通过多代理共识和思维链管道合成推理轨迹;目标是无幻觉、临床扎根的逻辑。
    • SFT:人类偏好源自多VLM共识;合成数据通过提示重写和长尾过采样增强。
    • RL:优先处理困难样本(60–80% SFT准确率);添加工具辅助和冲突场景;使用原子评估点提供清晰奖励信号。
  • 评估基准

    • 公开:六大类 — 视觉诊断、医学影像、诊断、医学文本、报告生成、指令遵循 — 支持多语言和多模态覆盖。
    • 内部:真实世界VQA(10万+临床问题)、OCR(患者拍摄的失真报告)、标题(聚焦病变,医生验证关键点,通过奖励/惩罚规范评分)。

方法

作者基于Seed视觉语言基础模型,为MedXIAOHE构建统一的多模态解码器架构。核心设计将强大的视觉编码器与大型语言模型(LLM)集成,实现视觉和文本输入的无缝处理。如框架图所示,系统接受多样化模态输入——包括医疗文本、患者记录、实验室报告和多轮对话——以及高分辨率临床图像如X光片、CT扫描、病理切片和MRI扫描。这些输入通过保留空间保真度的多模态原生分辨率转换处理,随后由Seed-ViT主干编码为视觉token。轻量级MLP适配器将这些视觉特征映射到LLM的嵌入空间,使自回归解码器能在完整上下文条件下执行指令跟随、推理和生成。

为支持领域特定鲁棒性,作者构建了医学实体树(MET),这是一个包含140万实体的五层分级分类体系。该结构用于平衡实体训练、量化知识覆盖并指导有针对性的数据获取。MET通过三阶段流水线构建:首先通过LLM进行高效实体提取(严格JSON格式);接着通过K-Means和频率加权聚合进行联合类型化和层次聚类;最后通过增量树附加进行受控扩展。在扩展过程中,ReAct代理通过检索外部证据并应用病因主导性和特异性等领域原则解决分类冲突,确保可审计性和对新兴医学知识的动态适应。

训练过程采用单阶段持续预训练(CPT)策略,以课程驱动的数据排序策略取代随机混洗。作者首先训练轻量级预热模型为每个样本生成固定长度嵌入,然后应用UMAP和HDBSCAN对语义一致的样本进行聚类。聚类按紧凑度评分排序——评分越低表示簇内相似性越高——并排序形成由易到难的课程。通过混合区域和回放缓冲区强制聚类间平滑过渡,以缓解遗忘和梯度冲突。这种结构化暴露使医疗专业化和通用多模态推理能够稳定联合优化,无需显式阶段冻结。

为发展推理能力,作者通过多条管道合成高质量医疗问答数据。知识图谱引导的问答合成通过从医学知识图谱采样复杂路径生成多跳问题,遮蔽中间属性以增加难度。多专家拒绝采样使用集成模型生成多样化推理轨迹,通过双重质量门验证结果和逻辑合理性。结构化CoT合成强制四阶段临床工作流(理解、观察、推理、结论),并从六个维度验证输出,确保无事后偏见的真实思维。个性化视觉CoT引入双轨范式,将逻辑核心构建与风格适应分离,在保持视觉保真度的同时增强推理深度。

为增强代理推理,作者为模型配备工具集,包括通用搜索、医学搜索(药品标签、临床记录)和图像编辑(放大、旋转)。训练数据集通过难度过滤管道合成,生成需要工具使用的多跳医学问题。两阶段过滤过程选择需要局部感知和工具增强推理的案例,确保模型学会在复杂诊断任务中与外部工具交互。训练循环整合这些工具增强轨迹,构建一个以视觉证据为基础并能通过外部来源验证细节的推理器。

训练后采用监督微调(SFT),使用从原子指令集和图结构表示合成的指令跟随数据建模隐式推理。反向构建策略从高质量响应推断兼容指令以提高约束遵循。随后进行强化学习,由多层混合奖励系统引导,将样本路由至基于规则或基于评分标准的评分器。评分标准系统结合动态上下文标准与静态领域标准,锚定于黄金参考响应。过程监督推理验证评估中间CoT块的框架完整性、逻辑鲁棒性和探索深度。奖励信号通过非线性融合与安全门控机制结合,确保临床准确性、逻辑连贯性和合规性。

最后,作者实施RFT增强的迭代课程策略,协调异构数据和分层奖励。每次迭代循环通过RFT蒸馏、基础RL、专业化RL和对齐RL阶段。动态提示基础课程支持早期学习,熵感知自适应调节防止后期探索停滞。这种迭代方法实现逐步能力整合,避免梯度干扰或熵崩溃,产出可临床信赖的系统,能在多模态医疗任务中执行复杂工具增强推理。

实验

  • 通过语义覆盖指标验证医学分类体系的全面性,显示在临床、语料库和知识图谱基准测试中前向覆盖接近完整(>0.95),并揭示显著的后向覆盖缺口,证实所构建树的更优粒度。
  • 在NeurIPS 2025 Cure-Bench中展示顶级性能,使用工具辅助分析(如ZOOM)放大和解释影像特征的模型,能准确诊断如从CT扫描识别肺癌。
  • 在放射学中展示结构化、基于证据的推理能力,包括系统X光分析与解剖分割及边界框标注,得出精确发现如心脏扩大和血管充血。
  • 成功将临床表现(如全血细胞减少、脾肿大)与外周血涂片形态(多毛细胞)关联,诊断多毛细胞白血病,正确识别TRAP阳性为关键标志。
  • 使用工具辅助放大和区域特定分析,从变形临床报告中准确提取实验室数值,确认异常测量如低MCH。
  • 在涵盖视觉诊断、影像、文本、报告和指令遵循的多个公开医疗基准上评估,展示在多样化医疗AI任务中的广泛能力。

作者使用语义覆盖指标将他们的医学实体树与现有医疗数据集比较,发现其分类体系捕获了每个目标集超过95%的概念。较低的后向覆盖分数表明其树包含许多基线中不存在的额外长尾和细粒度实体,支持其更广范围。结果表明该分类体系既高度包容现有知识,又比当前基准更全面。

作者在多个医疗基准上评估其MedXIAOHE模型,对比GPT-5.2 Thinking、Gemini3.0 Pro和Gemini2.5 Pro。结果显示MedXIAOHE在视觉诊断、医学影像、诊断、医学文本和指令遵循任务中持续优于或匹配领先模型,尤其在MedXpertQA-MM和MedMCQA等专业医疗基准中表现突出。这表明该模型在处理复杂医疗推理和多模态任务方面具有强大的泛化能力和领域专长。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供