轻量级语言模型赋能智能体系统:高效推理的新范式
小型语言模型(SLMs)正成为智能体系统(Agentic Systems)的核心驱动力。最新研究报告系统梳理了如何在智能体工作流中高效利用SLMs,强调其在工具调用、结构化输出和部署策略上的优势,并提出“以SLMs为默认、LLMs为备选”的新范式。 在大多数智能体架构中,前端路由器(Front-door Router)作为核心枢纽,负责接收用户请求并根据意图、成本、延迟、不确定性及任务类型进行智能分流。系统通过“能力注册表”(Capability Registry)对SLMs进行标签化管理,依据其专长分类:如意图识别、信息抽取、工具调用、代码生成等。常规任务由SLMs处理,复杂或不确定任务则自动升级至大型语言模型(LLMs)。 理想场景下,用户请求首先由一个30亿至80亿参数的SLM处理,该模型几乎完成全部基础工作:判断应调用哪些工具、提取关键实体、生成符合预设Schema的严格JSON或YAML格式输出,并规划多步骤执行流程。LLM仅在必要时被唤醒,作为“兜底”机制。 升级触发条件明确:当SLM失败或系统评估其输出不确定性过高时,LLM才会介入。此时,LLM接收到的是高度约束的提示,包含完整对话历史、SLM的失败尝试和清晰指令。生成结果仍需通过相同验证流程,若未通过则循环处理或触发人工介入。 对于涉及高风险操作(如支付、个人隐私处理、生产环境数据删除),系统不会自动执行,而是强制要求人工审批。系统采用双模式运行:SLM提出方案,由另一SLM或LLM进行仲裁;当不确定性或政策风险评分过高时,自动通知人类进行确认、拒绝或修改。 每一次人工干预都会被记录为“黄金反事实样本”,成为系统学习的宝贵数据。所有操作——提示、输出、延迟、成本、验证失败、升级率、不确定性评分——均被全面日志化。这些数据反过来用于训练下一轮的适配器模型。 通过持续迭代,SLMs在实际产品任务中不断优化,仅基于真实使用数据进行微调。一个五步转型蓝图建议:先全量记录当前LLM行为1-2周,分类任务发现80%为信息抽取、路由或简单工具调用;随后用LoRA技术在1万至5万条脱敏日志上微调小型专家模型,量化至4位或8位;替换为带不确定度回退机制的路由器,token成本可下降20至100倍;最后通过人工评估、安全护栏和失败日志持续优化,实现SLM默认、LLM辅助的智能体新范式。未来不是模型更大,而是调度更聪明。
