HyperAIHyperAI

Command Palette

Search for a command to run...

曲线下智能体:AUC驱动的下一代AI决策新范式

在NeurIPS 2025上,约20%至25%的论文聚焦于代理型AI(agentic AI)系统,这类系统正迅速普及,尤其在医疗领域。它们通过调用大语言模型(LLM)实现多步推理、数据融合与上下文决策,常用于回答“患者是否患病”或“是否应进行某项检查”等二元判断问题。然而,这类系统通常输出硬性决策(如“是”或“否”),而非可校准的概率值。 这与传统医学模型的评估方式产生脱节。在临床预测中,AUC(受试者工作特征曲线下面积)是衡量模型区分能力的“金标准”,其核心在于对正负样本进行连续得分排序,而非仅输出二分类结果。当模型输出仅为0或1时,AUC无法有效计算,因缺乏足够排序信息,导致评估失效。 AUC的本质是:随机选取一个阳性患者和一个阴性患者,前者得分高于后者的概率。这要求输出具有足够细粒度的连续分数。而当前大多数代理系统输出二值结果,使AUC计算变得不成立或退化。 为弥合这一鸿沟,作者提出六种将代理输出转化为连续得分的方法: 提取内部模型logits:若可访问模型输出层,使用token级log概率构建得分,能最真实反映模型内部置信度,稳定性高。 要求代理直接输出概率:通过提示词引导代理在推理后输出“风险概率:0.75”等数值。虽直观易用,但易出现极端值聚集(如集中在0.9或0.1),需精心设计提示以提升校准性。 蒙特卡洛重复采样:对同一输入多次运行代理,统计“患病”预测频率作为概率估计。能捕捉不确定性,但计算成本高,适合小规模验证。 转化检索相似度为风险分:在检索增强型代理中,将患者与已知阳性病例的向量相似度(如余弦相似度)作为风险得分,适用于基于知识库的系统。 训练校准模型:若代理输出为“低/中/高风险”等类别,可用少量标注数据训练一个回归模型,将其映射为连续得分,增强可比性。 扫描代理内部配置阈值:若代理支持调节保守性参数(如判断阈值),通过改变参数并记录敏感性和特异性,绘制近似ROC曲线,计算近似AUC。 这些方法共同目标是:让代理系统输出具备排序能力的连续分数,从而支持与传统模型在AUC等标准指标上的公平比较。唯有如此,才能真正评估代理系统是否带来性能提升,使其在临床与科研中获得可信认可。

相关链接

Towards Data ScienceTowards Data Science