
摘要
近似最近邻搜索(Approximate Nearest-Neighbor Search, ANNS)算法在近年来的人工智能应用中变得日益关键,尤其是在检索增强生成(Retrieval-Augmented Generation, RAG)和基于代理的大型语言模型(LLM)应用中。本文提出了一种全新的ANNS算法范式——CRINN。CRINN将ANNS优化问题建模为强化学习任务,以执行速度作为奖励信号。该方法能够自动生成逐步加速的ANNS实现,同时严格满足精度约束。我们的实验评估表明,CRINN在六个广泛使用的近似最近邻搜索基准数据集上均表现出色。与当前最先进的开源ANNS算法相比,CRINN在其中三个数据集上取得了最佳性能(GIST-960-Euclidean、MNIST-784-Euclidean和GloVe-25-angular),并在另外两个数据集上并列第一(SIFT-128-Euclidean和GloVe-25-angular)。CRINN的成功意义远超ANNS优化本身:它验证了通过强化学习增强的大型语言模型,能够作为自动化复杂算法优化的有效工具,尤其适用于那些需要专业知识且依赖大量人工精细调优的场景。代码已开源,地址为:https://github.com/deepreinforce-ai/CRINN