17日前
ビジョンガイドチャンキングがすべて:マルチモーダル文書理解によるRAGの強化
Tripathi, Vishesh ; Odapally, Tanmay ; Das, Indraneel ; Allu, Uday ; Ahmed, Biddwan

要約
情報検索と質問応答を革命的に変革したリトリーバル・オーギュメンテッド・ジェネレーション(RAG)システムですが、従来のテキストベースのチャンキング手法は複雑な文書構造、複数ページにわたる表、埋め込み図形、およびページ間での文脈依存関係に対処するのに苦労しています。本稿では、大規模マルチモーダルモデル(LMMs)を活用してPDF文書をバッチ処理し、意味的一貫性と構造的整合性を維持する新しいマルチモーダル文書チャンキング手法を提案します。当手法は、設定可能なページバッチで文書を処理し、バッチ間の文脈を保持することで、複数ページにわたる表や埋め込み視覚要素、手順内容などを正確に扱うことが可能となります。私たちは手作業で作成されたクエリが含まれるキュレートされたPDF文書データセットを使用して当手法を評価し、チャンク品質と下流のRAG性能の向上が示されました。ビジョンガイダンスによる当手法は従来の単純なRAGシステムよりも高い精度を達成しており、定性的分析では文書構造と意味的一貫性の優れた保持が確認されています。