2ヶ月前

REFRAG：RAGに基づくデコードの再考

Xiaoqiang Lin Aritra Ghosh Bryan Kian Hsiang Low Anshumali Shrivastava Vijai Mohan

要約

大規模言語モデル（LLM）は、検索拡張生成（RAG）を含むマルチターンおよびエージェント型アプリケーションにおいて、広範な外部知識を活用して応答品質を向上させるという顕著な能力を示している。しかし、長文コンテキストの入力を処理する際には、システムのレイテンシが著しく増加し、キーバリューキャッシュに膨大なメモリを要するため、スループットが低下するという課題があり、知識の豊富化とシステム効率の間に根本的なトレードオフが生じる。LLMの長文コンテキスト入力に対するレイテンシ低減は主要な目標であるが、本研究ではRAGに対して特別な配慮が必要であると主張する。RAGにおいては、LLMのコンテキストの大部分が検索結果の断片を連結したものであり、そのうちクエリに関連する部分はごくわずかである。また、再ランク付け過程における多様性の確保や重複削除により、これらの断片同士の意味的類似性が低くなることが多く、標準的なLLM生成タスクとは異なるブロック対角型のアテンションパターンを生じる。この観察に基づき、本研究では、デコード段階におけるRAGコンテキストに対する大部分の計算が不必要であり、性能への影響を最小限に抑えて削減可能であると主張する。これに対応して、圧縮・感度評価・拡張のプロセスを統合した効率的なデコードフレームワーク「REFRAG」を提案する。スパース構造を活用することで、困惑度に損なわれることなく、最初のトークン出力までの時間（time-to-first-token）を30.85倍高速化（前例比3.75倍の改善）を実現した。さらに、大規模コンテキストに対する最適化フレームワークにより、REFRAGはLLMのコンテキスト長を最大16倍まで拡張可能であることを示した。REFRAGの有効性は、RAG、マルチターン会話、長文ドキュメント要約という多様な長文コンテキストタスク、広範なデータセットを対象に厳密に検証された。実験結果から、LLaMAモデルおよび他の最先端ベースラインと比較して、さまざまなコンテキスト長において、精度に損なわれることなく大幅な高速化を達成することが確認された。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

REFRAG：RAGに基づくデコードの再考

Xiaoqiang Lin Aritra Ghosh Bryan Kian Hsiang Low Anshumali Shrivastava Vijai Mohan

要約

AI で AI を構築

Hyper Newsletters