提升AI决策系统的可靠性:构建具备内置纠错功能的LLM架构
为了提高大规模语言模型(LLM)在处理客户电话分类等任务中的准确性,研究人员提出了一种名为“AI决策电路”的新方法。这种方法借鉴了数字和模拟电子学以及量子计算中的错误检测和纠正技术,旨在通过多个独立的LLM和专门的验证者来减少错误,同时提高系统的整体可靠性和效率。 AI代理的挑战 传统的AI代理虽然能够快速处理复杂的任务,如自动撰写文章和代表用户采取行动,但在某些情况下,其输出的准确性仍然不够理想。例如,一个准确率为99.95%的代理在处理10,000个电话时可能会犯5个错误,而且这些错误无法事先确定。这导致即使有高度准确的代理,仍然需要人类审核所有结果,从而形成了一个瓶颈问题。 AI决策电路的工作原理 AI决策电路通过引入多个代理和验证者来解决这一问题。具体来说,这种方法包括以下几个步骤: 冗余处理:使用多个独立的LLM代理处理同一输入,类似于现代CPU中的冗余电路,以检测硬件错误。 共识机制:通过简单的投票系统或加权平均法结合不同代理的输出结果,类似于容错电子系统中的多数逻辑门。 验证者代理:专门的AI验证者检查输出结果的合理性,类似于电子系统中使用的奇偶校验码或CRC检查。 人机交互:在关键步骤上引入人类审核,确保高敏感任务的可靠性。 案例分析:Philadelphia水务部门 作为具体的案例,研究人员使用Philadelphia水务部门的客户电话数据进行实验。他们生成了一系列虚假电话记录,并使用最先进的LLM模型Claude 3.7 Sonnet进行分类。结果显示,单独的LLM代理可以达到91%的准确性,但仍有9%的分类错误。通过引入AI决策电路,整体准确率提高到87%,而在“高信心”分类中,准确率更是达到了92.5%。 核心代码实现 研究人员在Python中实现了这一决策电路,主要包含以下几个函数: 主解析器(primary_parser):直接从客户输入中提取分类信息。 备用解析器(backup_parser):使用链式思维方法进行分类,增加冗余。 否定检验器(negative_checker):判断输入是否足以分类。 模式验证器(validate_call_type):检查输出是否符合预期模式。 这些函数通过布尔逻辑组合在一起,形成最终的分类结果,并附带信心标签。当多个代理一致时,系统标记为“高信心”,反之则标记为“中等信心”或“低信心”。 公式和优化设计 为了进一步优化系统,研究人员提出了几个数学公式来计算不同阶段的失败概率和所需的人类干预次数: 单一代理的失败概率:通过测试数据集观测得出。 多个代理同时失败的概率:通过失败概率相乘计算。 需要人类干预的案件数量:通过总执行次数和失败概率计算。 此外,他们还建立了一个成本函数,用以评估不同改进措施的影响,如增加新的解析器、提高现有解析器的准确性或改善验证过程。例如,为了将检测不到的错误数量减少50%,可以考虑以下几种策略: 新增一个50%准确率的解析器。 提高两个现有解析器各10%的准确率。 改善验证过程15%的准确率。 未来前景和评价 这种方法为构建更可靠的AI系统提供了理论和技术基础,有助于在关键任务中减少人为干预,提高效率。业内专家认为,这一框架不仅提高了AI系统的准确性,还增强了用户对其的信任。正如数字电子从不稳定的组件演化为我们信赖的计算机一样,AI系统也在逐步迈向更高的可靠性。 公司背景 研究人员的代码和详细实现已经发布在GitHub仓库ai-decision-circuits中,这为其他开发者提供了实用的参考。随着这一方法的逐步推广,未来有望成为处理高敏感任务的标准架构。该研究团队专注于开发高效的AI决策系统,以满足企业和社会的需求。