HyperAI超神经

在NeurIPS 2025上，约20%至25%的论文聚焦于代理型AI（agentic AI）系统，这类系统正迅速普及，尤其在医疗领域。它们通过调用大语言模型（LLM）实现多步推理、数据融合与上下文决策，常用于回答“患者是否患病”或“是否应进行某项检查”等二元判断问题。然而，这类系统通常输出硬性决策（如“是”或“否”），而非可校准的概率值。这与传统医学模型的评估方式产生脱节。在临床预测中，AUC（受试者工作特征曲线下面积）是衡量模型区分能力的“金标准”，其核心在于对正负样本进行连续得分排序，而非仅输出二分类结果。当模型输出仅为0或1时，AUC无法有效计算，因缺乏足够排序信息，导致评估失效。 AUC的本质是：随机选取一个阳性患者和一个阴性患者，前者得分高于后者的概率。这要求输出具有足够细粒度的连续分数。而当前大多数代理系统输出二值结果，使AUC计算变得不成立或退化。为弥合这一鸿沟，作者提出六种将代理输出转化为连续得分的方法：提取内部模型logits：若可访问模型输出层，使用token级log概率构建得分，能最真实反映模型内部置信度，稳定性高。要求代理直接输出概率：通过提示词引导代理在推理后输出“风险概率：0.75”等数值。虽直观易用，但易出现极端值聚集（如集中在0.9或0.1），需精心设计提示以提升校准性。蒙特卡洛重复采样：对同一输入多次运行代理，统计“患病”预测频率作为概率估计。能捕捉不确定性，但计算成本高，适合小规模验证。转化检索相似度为风险分：在检索增强型代理中，将患者与已知阳性病例的向量相似度（如余弦相似度）作为风险得分，适用于基于知识库的系统。训练校准模型：若代理输出为“低/中/高风险”等类别，可用少量标注数据训练一个回归模型，将其映射为连续得分，增强可比性。扫描代理内部配置阈值：若代理支持调节保守性参数（如判断阈值），通过改变参数并记录敏感性和特异性，绘制近似ROC曲线，计算近似AUC。这些方法共同目标是：让代理系统输出具备排序能力的连续分数，从而支持与传统模型在AUC等标准指标上的公平比较。唯有如此，才能真正评估代理系统是否带来性能提升，使其在临床与科研中获得可信认可。

相关链接

相关链接

相关链接

在线教程｜不用百亿参数也能跑 Agent！Boss 直聘南北阁实验室开源 Nanbeige4.2-3B，让小模型拥有「大脑」

在线教程｜不用百亿参数也能跑 Agent！Boss 直聘南北阁实验室开源 Nanbeige4.2-3B，让小模型拥有「大脑」

Command Palette

曲线下智能体：AUC驱动的下一代AI决策新范式

相关链接

Command Palette

曲线下智能体：AUC驱动的下一代AI决策新范式

相关链接

Command Palette

曲线下智能体：AUC驱动的下一代AI决策新范式

相关链接

在线教程｜不用百亿参数也能跑 Agent！Boss 直聘南北阁实验室开源 Nanbeige4.2-3B，让小模型拥有「大脑」

在线教程｜不用百亿参数也能跑 Agent！Boss 直聘南北阁实验室开源 Nanbeige4.2-3B，让小模型拥有「大脑」