AutoThink：自适应资源分配显著提升本地语言模型推理效率达43%

近日，一位技术开发者推出了一项名为AutoThink的新技术，该技术通过自适应分配计算资源来显著提高本地大规模语言模型（LLM）的推理性能。这项创新的核心理念在于，不是为每一个查询提供相同的“思考时间”，而是根据查询的复杂度将其分类为高复杂度或低复杂度，并据此分配计算资源。具体来说，复杂推理请求可以获得70%到90%的计算资源，而简单查询则分配20%到40%的资源。 AutoThink的技术实现包括两大部分：一是自适应分类框架，能根据新出现的查询复杂度类别进行动态学习和调整，无需重新培训模型；二是引导向量，这些向量来源于微软在Phi-4论文中提出的枢轴标记搜索（Pivotal Token Search, PTS）技术，能够在生成过程中指导模型的推理模式，促进精确的数值运算、自我纠正和详尽的探索。该技术的优势在于，不仅提高了推理性能，还减少了所需计算资源的数量。开发人员在一个名为DeepSeek-R1-Distill-Qwen-1.5B的模型上测试了AutoThink的效果，结果显示，其在GPQA-Diamond（一种评估多步推理能力的测试集）上的表现从基础线的21.72%提升到了31.06%，相对提升了43%。同时，在MMLU-Pro测试集上也取得了微小的进步，从25.58%提升到26.38%。值得注意的是，AutoThink适用于任何本地推理模型，无论是DeepSeek、Qwen还是自定义调优的模型，且不依赖于任何外部API。除了理论和技术验证外，AutoThink项目还包括了公开的技术论文和开源代码，方便其他研究者和开发者尝试和改进这一技术。目前，该项目已在GitHub上提供了详细的代码示例和技术说明。开发者的初衷是希望通过社区的力量，进一步优化和推广这项技术，使其在更多应用场景中发挥价值。

AutoThink：自适应资源分配显著提升本地语言模型推理效率达43%

Related Links