HyperAIHyperAI

Command Palette

Search for a command to run...

ビジョンガイドチャンキングがすべて:マルチモーダル文書理解によるRAGの強化

Tripathi Vishesh Odapally Tanmay Das Indraneel Allu Uday Ahmed Biddwan

概要

情報検索と質問応答を革命的に変革したリトリーバル・オーギュメンテッド・ジェネレーション(RAG)システムですが、従来のテキストベースのチャンキング手法は複雑な文書構造、複数ページにわたる表、埋め込み図形、およびページ間での文脈依存関係に対処するのに苦労しています。本稿では、大規模マルチモーダルモデル(LMMs)を活用してPDF文書をバッチ処理し、意味的一貫性と構造的整合性を維持する新しいマルチモーダル文書チャンキング手法を提案します。当手法は、設定可能なページバッチで文書を処理し、バッチ間の文脈を保持することで、複数ページにわたる表や埋め込み視覚要素、手順内容などを正確に扱うことが可能となります。私たちは手作業で作成されたクエリが含まれるキュレートされたPDF文書データセットを使用して当手法を評価し、チャンク品質と下流のRAG性能の向上が示されました。ビジョンガイダンスによる当手法は従来の単純なRAGシステムよりも高い精度を達成しており、定性的分析では文書構造と意味的一貫性の優れた保持が確認されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています