HyperAIHyperAI

Command Palette

Search for a command to run...

基于人机协同推理大型语言模型Agent的自动化立体定向放射外科计划

Abstract

立体定向放射外科(Stereotactic Radiosurgery, SRS)要求在关键结构周围实现精确的剂量塑形,然而由于缺乏透明度,黑箱式人工智能系统在临床中的应用仍受到限制。本研究在一项回顾性队列中评估了思维链(chain-of-thought)推理是否能够提升智能体在SRS治疗计划制定中的规划能力,该队列包含41例接受18 Gy单次分割SRS治疗的脑转移瘤患者。我们开发了SAGE(Secure Agent for Generative Dose Expertise),一种基于大语言模型(LLM)的自动化SRS治疗计划生成智能体。针对每例患者,我们分别采用两种变体生成计划:一种使用非推理模型,另一种使用推理模型。结果显示,与人工规划师相比,推理模型在主要评价指标上(靶区覆盖度、最大剂量、适形指数、剂量梯度指数)的计划剂量学表现相当(所有p > 0.21),同时显著降低了耳蜗受照剂量(p = 0.022)。当被要求优化适形性时,推理模型展现出系统性的规划行为,包括前瞻性约束验证(457次)和权衡决策讨论(609次),而标准模型则未表现出任何此类推理过程(分别为0次和7次)。内容分析进一步表明,约束验证与因果解释主要集中于推理型智能体。优化过程的轨迹可作为可审计的日志记录,为实现透明化自动化计划制定提供了可行路径。

一句话总结

亨利·福特医疗集团与密歇根州立大学研究人员开发了SAGE——一种基于大语言模型的立体定向放射外科规划系统,通过思维链推理生成透明、可审计的脑转移瘤剂量方案。与非推理模型相比,SAGE的推理变体展现出前瞻性约束验证与权衡决策能力,在41例患者案例中关键指标与人工剂量测定结果相当,同时显著降低耳蜗剂量,为临床可采纳的AI规划提供了可行路径。

主要贡献

  • 脑转移瘤立体定向放射外科(SRS)规划面临临床应用障碍,原因在于传统黑盒AI系统在需精确剂量塑形的关键结构邻近区域缺乏透明度。
  • 本研究提出基于大语言模型的规划智能体SAGE,利用思维链推理生成可审计的优化轨迹,实现非推理模型所不具备的系统性约束验证与权衡决策。
  • 在41例患者的回顾性队列研究中,推理变体在主要终点指标(PTV覆盖率、最大剂量、适形指数及梯度指数;全部 p>0.21p > 0.21p>0.21)上与人工规划结果相当,同时显著降低耳蜗剂量(p=0.022p = 0.022p=0.022),并实现457次约束验证与609次权衡决策,而非推理模型仅分别出现近零次。

引言

脑转移瘤立体定向放射外科(SRS)因单次高剂量照射临近关键风险器官的特性,需极端精确的剂量控制以保护健康脑组织,陡峭的剂量梯度要求使本已稀缺的专业规划师资源更加紧张,导致SRS主要局限于学术医疗中心。既往基于AI的规划方法依赖机构特定数据训练的神经网络,作为不透明黑盒存在解释性差、跨中心泛化能力弱的问题。这些缺陷阻碍了临床应用,因为监管框架与放射肿瘤学专家均优先要求可解释的决策过程。作者通过实施人机协同的大语言模型智能体SAGE,专为迭代式推理驱动的SRS优化而设计,解决了这一问题。研究证实:具备推理能力的大语言模型——通过生成空间推理与约束验证的显式中间步骤——不仅能产出可审计的决策日志,还能在规划质量上超越非推理模型,直接攻克SRS规划中的透明度与几何复杂性障碍。

数据集

  • 研究采用机构2022至2024年间41例接受单靶点立体定向放射外科(SRS)治疗的脑转移瘤患者回顾性数据集,严格遵循临床指南(单次分割18 Gy)。
  • 数据集包含CT图像、分割解剖结构、临床治疗方案及剂量测定数据,均源自Varian Eclipse治疗计划系统(16.1版)。
  • 所有方案通过AAA算法(15.6.06版)以1.25 mm剂量网格分辨率计算剂量;射束几何结构固定以匹配原始临床配置。
  • 剂量体积直方图(DVH)与光子优化采用Eclipse算法(15.6.05版),回顾性临床方案与SAGE生成方案均完整存储于Eclipse系统内。
  • 数据用于临床方案与SAGE替代方案的直接对比,未进行训练集划分或混合比例调整——旨在临床工作流内验证方案质量。
  • 处理过程严格遵守机构协议,获得IRB批准,并全程使用Eclipse工具,除标准临床输出外未进行额外裁剪或元数据构建。

方法

作者在SAGE框架内采用双变体架构实现放疗规划自动化,将非推理与推理大语言模型(LLM)集成至迭代优化循环。初始化时,智能体接收临床场景信息——包括患者解剖结构、靶区体积参数、计划靶区(PTV)与风险器官(OARs)的空间关系、处方剂量(单次分割18 Gy)——以及封装PTV/OARs剂量参数(如DVH指标)的当前优化器状态,并被要求在严格遵守OAR约束的前提下实现靶区覆盖。

参见框架示意图:系统分为两条并行执行路径——非推理模型(LLaMa3.1)与推理模型(QwQ-32B)。两种变体通过相同迭代循环运作,包含LLM驱动的参数调整、剂量计算、方案评估及目标更新。每次循环基于当前状态生成新优化目标集,反馈至下一轮迭代。当所有临床目标同时满足或达到最大十次迭代时,优化终止,并依据确定性停止逻辑选择最优方案。

优化完成后,治疗方案进入人机协同审核阶段,由认证医学物理师评估是否满足定量临床标准。未达适形标准的方案将返回SAGE,通过标准化自然语言精炼提示要求在保持靶区覆盖与OAR约束的前提下提升剂量适形性。该提示统一应用于所有案例与模型变体,确保智能体对人工反馈响应能力的一致性评估。此两阶段架构因而能同时评估自主规划能力与人机协同下的自适应优化性能.

实验

  • 在41例脑转移瘤患者18 Gy SRS治疗中测试SAGE(基于LLM的规划智能体),对比推理变体(通义千问QwQ-32B)与非推理变体(Llama 3.1-70B)相对于人工方案的表现
  • 推理变体达成与临床医师等效的主要剂量测定指标:PTV覆盖率96.8%(临床96.5%,p=0.21)、适形指数、梯度指数及最大剂量(全部p>0.21)
  • 显著降低右侧耳蜗剂量(经Benjamini-Hochberg校正后p=0.022),且所有方案均满足安全阈值
  • 接收精炼提示后,推理模型更一致地提升适形指数(p<0.001),优于非推理变体(p=0.007),趋近临床基准
  • 展现独有决策行为:约束验证(457次)与权衡决策(609次),非推理模型仅分别出现0次与7次
  • 格式错误数量减少五倍(中位数0次 vs 3次/患者),同时保持可审计的优化轨迹

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供