HyperAIHyperAI

Command Palette

Search for a command to run...

GPU内蔵TopKカーネルがAgentic RAG検索を高速化

GPUオンデバイスで完結するカスタムCUDA Top-Kカーネルが公開され、エージェント型RAGパイプラインのPCIeボトルネックを解消する実証がなされた。著者のAnubhab Banerjee氏は、従来のアーキテクチャが持つホストとGPU間データの頻繁な往復が、並列計算性能を低下させる主因であることを指摘。本手法ではコーパス埋め込みを一度VRAMに格納し、類似度計算とTop-K選出をデバイス上で完結させる。これによりクエリ埋め込みの送受信と結果返却の最小限の転送のみで処理が完了し、PythonやCPU依存のオーバーヘッドを排除する。 GTX 1080を用いた45パターンにわたるベンチマークでは、K値8および32の条件下で最大8.57倍の高速化を記録した。特に大規模コーパスかつ小規模K値の場合、PCIe転送コスト削減の効果が顕著に現れた。一方でK=100ではO(K^2)のバブルソート実装が要因となりCPUが優位になるケースもあり、設計のトレードオフが明確になっている。 本実装はFAISSやcuVSとは異なり、依存関係を最小限に抑えた343行の単一バイナリとして提供され、技術検証に適している。著者は本技術を5G基地局のビーム選定プロセスに例え、インフラ最適化の普遍性を示唆。今後はマルチエージェント間での状態永続化と、大規模K値に対応した選択アルゴリズムへの変更が計画されており、シリーズ最終パートへの基盤技術として位置づけられている。

関連リンク