RAGアンカー検出:並列検出器と終端LLM1回設計
企業向けRAGシステムにおける文書検索の新たな標準アーキテクチャとして、アンカー検出パイプラインが確立されつつある。本手法は検索プロセスを並列検出、構造集約、単一LLM判定の3段階に整理し、精度と監査可能性を両立させる。 第1段階では、文書目次と本文に対しキーワードマッチングと埋め込み検索を並行実行する。キーワード検索は決定論的フィルタとして常時稼働し、埋め込み検索は語彙不一致を補完する。これにより検索コスト増を抑制しつつ多角的なシグナルを収集する。 第2段階では候補をセクション単位に集約する。目次に対するLLM推論を活用し、文脈に応じたセマンティック関連付けを実現する。本文検索では共起スコアリングや正規表現パターンを採用し、企業文書特有の定義と具体値の区別課題を解決する。BM25のような純粋統計手法は上流フィルタの強化で代替可能と位置づけられる。 第3段階では全検出結果を統合し、単一LLM呼び出しで候補をランキングする。この設計により推論コストを最小化しつつ、各選択根拠を明文化し長期的な監査にも耐えうる証跡を提供する。 本パイプラインは検出後抽出パターンを標準化し、目次でのアンカー特定と本文文脈抽出を連携させる。クロスエンコーダーなどの追加リランカー依存を軽減し、企業RAGのコスト効率と透明性を飛躍的に向上させる基盤技術として期待される。
