AutoThink:自适应资源分配显著提升本地语言模型推理效率达43%
近日,一位技术开发者推出了一项名为AutoThink的新技术,该技术通过自适应分配计算资源来显著提高本地大规模语言模型(LLM)的推理性能。这项创新的核心理念在于,不是为每一个查询提供相同的“思考时间”,而是根据查询的复杂度将其分类为高复杂度或低复杂度,并据此分配计算资源。具体来说,复杂推理请求可以获得70%到90%的计算资源,而简单查询则分配20%到40%的资源。 AutoThink的技术实现包括两大部分:一是自适应分类框架,能根据新出现的查询复杂度类别进行动态学习和调整,无需重新培训模型;二是引导向量,这些向量来源于微软在Phi-4论文中提出的枢轴标记搜索(Pivotal Token Search, PTS)技术,能够在生成过程中指导模型的推理模式,促进精确的数值运算、自我纠正和详尽的探索。该技术的优势在于,不仅提高了推理性能,还减少了所需计算资源的数量。 开发人员在一个名为DeepSeek-R1-Distill-Qwen-1.5B的模型上测试了AutoThink的效果,结果显示,其在GPQA-Diamond(一种评估多步推理能力的测试集)上的表现从基础线的21.72%提升到了31.06%,相对提升了43%。同时,在MMLU-Pro测试集上也取得了微小的进步,从25.58%提升到26.38%。值得注意的是,AutoThink适用于任何本地推理模型,无论是DeepSeek、Qwen还是自定义调优的模型,且不依赖于任何外部API。 除了理论和技术验证外,AutoThink项目还包括了公开的技术论文和开源代码,方便其他研究者和开发者尝试和改进这一技术。目前,该项目已在GitHub上提供了详细的代码示例和技术说明。开发者的初衷是希望通过社区的力量,进一步优化和推广这项技术,使其在更多应用场景中发挥价值。