Command Palette
Search for a command to run...
Junnan Dong Siyu An Yifei Yu Qian-Wen Zhang Linhao Luo et al

要約
グラフ検索拡張生成(GraphRAG)は、断片化された知識を明示的な構造化グラフに整理することで、複雑な推論において大規模言語モデルの性能を効果的に向上させている。これまでの研究では、グラフ構築またはグラフ検索のいずれかに特化した改善が試みられてきたが、両者を独立して最適化する手法は、特にドメインの変化が生じた場合に限界が明らかとなり、最適な性能を発揮できなかった。本論文では、全体フレームワークを縦方向に統合したエージェント型パラダイム「Youtu-GraphRAG」を提案する。本手法は、以下の4つの要素により、高度に統合された構造を実現する。(i)自動抽出エージェントを特定のエンティティタイプ、関係タイプ、属性タイプに限定するための「シードグラフスキーマ」を導入。このスキーマは、未観測ドメインへのスケーラビリティを確保するため、継続的に拡張可能である。(ii)スキーマに基づき高次の知識を獲得するため、構造的トポロジーとサブグラフの意味情報を融合する新しい二重認識型コミュニティ検出手法を構築。これにより、階層的な知識木が自然に生成され、コミュニティ要約を活用したトップダウン型フィルタリングとボトムアップ型推論が両立可能となる。(iii)同一のグラフスキーマを解釈可能なエージェント型リトリーバーを設計。複雑なクエリを扱いやすく、並列処理可能な部分クエリに変換し、反復的なリフレクションを実行することで、より高度な推論を実現する。(iv)事前学習済み言語モデルにおける知識漏洩問題を軽減するため、特化した匿名データセットと、実際のGraphRAGフレームワークの性能を深く評価可能な「匿名性逆転(Anonymity Reversion)」タスクを提案。6つの挑戦的なベンチマークを用いた広範な実験により、Youtu-GraphRAGの堅牢性が実証された。最先端のベースラインと比較して、トークンコストを最大90.71%削減しつつ、精度は16.62%向上するという、パレート最適前線の顕著な拡大を達成した。これらの結果は、スキーマへの最小限の介入で、ドメイン間のスムーズな移行が可能である本手法の高い適応性を示している。