自定义CUDA内核实现GPU驻留Top-K检索,RAG提速8.6倍
针对智能体增强生成框架中频繁的跨设备数据搬运瓶颈,开发者 Anubhab Banerjee 近日开源了轻量级 CUDA 检索内核 cuda-topk-retrieval。传统架构在处理向量相似度搜索时,通常需将查询嵌入从 GPU 传至主机内存交由 CPU 计算,再将结果回传,这种 PCIe 往返操作严重拖慢了推理管线。该方案通过将完整语料库驻留 GPU 显存,在设备端直接完成点积打分、局部 Top-K 筛选与多路归并,仅将微型查询向量与最终检索结果进行跨总线传输。在 GTX 1080 显卡基准测试中,该架构展现出显著优势。当检索目标数为 8 时,面对十万至百万级不同维度的语料数据,系统最高可实现 8.57 倍的性能跃升,全面超越优化后的 CPU 暴力检索基线。项目仅以三百四十三行代码实现,采用块级排序算法以保证可审计性与跨平台结果严格对齐。此举有效剥离了推理管线中的冗余通信开销,验证了将检索视为硬件原语的设计理念。作为生产级智能体推理系列的第三篇实践,该项目为后续解决多智能体状态持久化问题铺平了道路,相关代码已同步至开源平台供社区验证。
