METAが開発したREFRAGでRAG処理が30倍高速化、コンテキスト圧縮で遅延とコストを大幅削減
リターゲット・アググレゲーション・ジェネレーション(RAG)システムの性能を30倍以上に飛躍的に改善する新技術「REFRAG」が登場し、開発チームの応答遅延とインフラコストの課題を解決する可能性を示している。METAの研究者たちが開発したこの手法は、不要なトークンを効果的に削減することで、処理速度を平均30.85倍に向上させながら、精度を維持している。 RAGシステムは、ユーザーの質問に応じて関連文書を検索し、その内容を大規模言語モデル(LLM)に提示して回答を生成する仕組みだが、実際には大量の不要な情報が検索結果に混入し、処理が遅延するという課題がある。たとえば、モバイルアプリのパスワードリセットに関する質問に対して、15件以上の関連文書が検索され、その中にはパスワードの一般ルールやセキュリティガイドラインなど、直接関係の薄い情報も含まれる。こうした「無駄なトークン」がLLMの処理を圧迫し、応答時間が長引き、ユーザーの満足度が低下する。 REFRAGは、こうした「無駄な情報」を識別し、コンテキストを知的に圧縮する技術である。検索結果から本質的な情報のみを抽出・要約することで、LLMに送るデータ量を大幅に削減。その結果、応答時間は最大30倍以上短縮され、サーバー負荷やコストも著しく低下する。この技術は理論的なものではなく、実際のプロダクション環境で即時導入可能な実用的ソリューションとして評価されている。 開発チームにとって、REFRAGはRAGの実用性を飛躍的に高める鍵となる。特に、カスタマーサポートや知識ベース型チャットボットなど、リアルタイム性が求められるシステムにおいて、迅速かつ正確な応答を実現する新たな道を開く。METAの研究チームが示したこのアプローチは、AI駆動の情報処理における「効率と精度の両立」の新たな指針となりつつある。
