PDFの二層構造がRAG品質を決定する
RAGシステムの精度を決定するPDF解析アーキテクチャの新規格が確立された。従来の単一テキスト抽出に代わり、メタデータに基づくドキュメントレベルの分類、ページ単位の構造化解析、そしてLLMによるセマンティック要約の三層パイプラインを統合する。これにより、非構造化ファイルを照会可能な関係型データベースに変換し、検索生成パイプラインの信頼性を飛躍的に高める。 解析エンジンはPyMuPDFを基盤とし、ドキュメントメタデータとネイティブ目次を優先して読み取る。生成ソフトウェアをMicrosoft Word、LaTeX、ブラウザ印刷、スキャンアプリの5カテゴリに自動分類し、抽出戦略を動的にルーティングする。メタデータとコンテンツの矛盾が生じた場合は、実際のページ構造を優先する設計としている。 ページ解析では、レンダリングモードを検出してネイティブテキストとスキャン画像上の隠しOCRレイヤーを区別する。画像面積が95%以上を占めるページをスキャンと判定し、マルチカラムレイアウトでは行の開始座標をクラスタリングして位置情報を付与する。これにより、列を跨ぐテキストの断片化を防ぎ、請求書や契約書などの位置依存型データ抽出を可能にする。テーブルはベクター構造として検出し、複雑なレイアウトは適応型カスケードで外部エンジンへフォールバックする。 構造化データに加え、解析直後にLLMへ最初の数ページを投入し、ドキュメントタイプと主要項目を抽出する3〜4文の要約を取得する。この要約はシステムプロンプトに固定注入され、質問時の文脈曖昧さを解消する。生成は1回限り実行され、以後のクエリで再利用される。 本手法の核心は、フラットなテキストではなく照会可能な階層型データ構造を出力することにある。各解析信号を列として保存し、ページ属性に応じてOCRスキップ、構造化抽出、カラム認識パスへ自動分配する。これによりRAGパイプラインの検索精度と生成一貫性が向上し、ドキュメント種別に応じた適応的処理が実装される。次稿では生成されるDataFrames構造とエンドツーエンド統合事例を詳述する。
