Command Palette
Search for a command to run...
Chenghao Zhang Guanting Dong Xinyu Yang Zhicheng Dou

要約
リトリーブ・オーガメントド・ジェネレーション(RAG)は、外部の文書コアスから関連する文書を検索することにより、大規模言語モデル(LLM)の性能を向上させる強力な枠組みとして注目されている。しかし、従来のRAGシステムは主に単モーダルなテキスト文書に焦点を当てており、実世界のシナリオでは、クエリや文書の両方がテキストと画像など複数のモーダルを含む混合モーダル(mixed-modal)であることが一般的であるため、その限界が顕在化している。本論文では、視覚・言語生成の質を向上させるために、混合モーダル情報の検索と推論を統合する「ユニバーサル・リトリーブ・オーガメントド・ジェネレーション(URAG)」という課題に取り組む。この目的のため、URAGの文脈に特化した、混合モーダルから混合モーダルへの統一的リトリーバー「Nyx」を提案する。現実的な混合モーダルデータの不足を補うため、Web文書を活用して、生成とフィルタリングを4段階に分けて自動化したパイプラインを導入し、現実の情報ニーズをより適切に反映する多様な混合モーダル質問・回答ペアを含むデータセット「NyxQA」を構築した。この高品質なデータセットを基盤として、Nyxの学習には2段階のフレームワークを採用する。まず、NyxQAと多様なオープンソースのリトリーブデータセットを用いて事前学習を行い、その後、下流の視覚・言語モデル(VLM)からのフィードバックを用いた教師あり微調整により、リトリーブ出力の品質を生成タスクの好みに一致させる。実験の結果、Nyxは従来のテキストのみを対象としたRAGベンチマークにおいても競争力ある性能を示すだけでなく、より一般的かつ現実的なURAG設定においても優れた性能を発揮し、視覚・言語タスクにおける生成品質を顕著に向上させた。