ドキュメント検索増強生成の評価において、我々は正しい道を歩んでいるか?

マルチモーダル大規模言語モデル(MLLM)を用いたリトリーブ・オーガメントド・ジェネレーション(RAG)システムは、複雑なドキュメント理解において大きな可能性を示しているが、その開発は評価手法の不十分さによって深刻な制約を受けている。現行のベンチマークは、ドキュメントRAGシステムの特定の部分に焦点を当てており、不完全な正解や証拠ラベルを伴う合成データを用いるため、実世界における課題やボトルネックを適切に反映できていない。この課題を克服するため、本研究では、ドキュメントRAGシステム内の各構成要素に対して細粒度な評価が可能な、大規模かつ多言語・多モーダルな評価システム「Double-Bench」を提案する。Double-Benchは、6言語・4種類のドキュメント形式に対応し、合計3,276件のドキュメント(72,880ページ)と5,168件の単一ホップおよびマルチホップクエリを含む。また、潜在的なデータ汚染問題に対応するため、動的更新を簡素化した仕組みを備えている。クエリは、すべての証拠ページを網羅的にスキャンした上で構築され、人間の専門家による検証を経て、品質と完全性を最大限に確保している。9種類の最先端埋め込みモデル、4種類のMLLM、4種類のエンドツーエンドドキュメントRAGフレームワークを用いた包括的な実験により、テキスト埋め込みモデルと視覚埋め込みモデルの性能ギャップが徐々に縮小していることが明らかになった。これにより、より強力なドキュメントリトリーブモデルの構築の重要性が浮き彫りになった。さらに、現行のドキュメントRAGフレームワークには、証拠なしでも回答を生成しようとする過剰な自己信頼(over-confidence)の問題が存在することが明らかとなった。本研究では、完全にオープンソースであるDouble-Benchが、今後の高度なドキュメントRAGシステムに関する研究に厳密な基盤を提供することを期待している。今後、定期的に最新のコーパスを収集し、毎年新しいベンチマークを公開する予定である。