17日前

RankRAG:LLMにおけるコンテキストランクリングとリトリーブ・オーガナイズド・ジェネレーションの統合

Yue Yu, Wei Ping, Zihan Liu, Boxin Wang, Jiaxuan You, Chao Zhang, Mohammad Shoeybi, Bryan Catanzaro
RankRAG:LLMにおけるコンテキストランクリングとリトリーブ・オーガナイズド・ジェネレーションの統合
要約

大規模言語モデル(LLMs)は、リトリーブ増強生成(RAG)において通常、リトリーバーから得られた上位k個のコンテキストを利用する。本研究では、単一のLLMを指令微調整(instruction fine-tuning)により、RAGにおけるコンテキストのランク付けと回答生成という二つの目的に同時に対応する新たなフレームワーク「RankRAG」を提案する。特に、訓練データにわずかなランク付けデータを組み込むだけで、指令微調整されたLLMが驚くほど優れた性能を発揮し、大量のランク付けデータで専用に微調整された同種のLLMを含む既存の専門的ランク付けモデルを上回ることを示した。生成性能に関しては、GPT-4-0613、GPT-4-turbo-2024-0409、およびRAGベンチマークにおいて最先端の性能を示すオープンソースモデルであるChatQA-1.5を含む多数の強力なベースラインと比較した。具体的には、Llama3-RankRAGは、9つの知識集約型ベンチマークにおいてLlama3-ChatQA-1.5およびGPT-4モデルを大きく上回った。さらに、医療分野における5つのRAGベンチマークにおいても、医療データでの指令微調整を行わずにGPT-4と同等の性能を発揮し、新たなドメインへの汎化能力の優れたことを示している。