Proxy-Pointer RAG が多モーダル応答を埋め込みなしで実現
従来の RAG(検索生成統合)システムでは、テキストベースの断片化されたチャンク検索が主流であり、文書内の画像や表を正確に回答に組み込むことは極めて困難でした。視覚的類似性に基づく多摩態埋め込みや OCR によるテキスト化も、文書構造の断絶により関連性の判定が不安定になるという根本的な課題がありました。この度、Open Source の「MultiModal Proxy-Pointer RAG」パイプラインが発表され、画像を含まないテキスト埋め込みモデルを用いながら、高精度な多摩態回答を実現する手法が確立されました。 このシステムの核心は、文書を一連の単語の袋ではなく、階層的なセマンティックブロックのツリーとして処理する点にあります。従来の手法が文字数でチャンクを分割するのに対し、Proxy-Pointer は見出しやセクション境界に基づいてデータを整理します。これにより、各セクションには複数の段落と関連する画像パス(ファイル名への参照)が完全に保持された状態で保存されます。検索プロセスでは、テキストの埋め込みによってセクション単位で情報を取得し、LLM(大規模言語モデル)がその文脈を完全に理解した上で、該当する画像を条件付きで選択・表示します。 開発者は、CLIP や GaLore などの AI 研究論文 5 本、計 270 枚の画像をテスト対象としたプロトタイプで、このアーキテクチャを検証しました。Google Gemini の埋め込みモデルと軽量な LLM を組み合わせ、FAISS ベクタインデックスとシナリオ別の再ランク付けを適用した結果、20 種類の質問ベースラインで 95% の画像 retrieval 精度を達成しました。特に重要なのは、関連のない文書から誤った画像が混入するケースが一度も発生しなかった点であり、システム信頼性が大幅に向上しました。さらに必要に応じて、最終段階で Vision Filter を活用し、実際に画像を確認して関連性の低いものを除外する高コストなオプションも用意されています。 この手法は、高価な多摩態埋め込みモデルや複雑な視覚解釈を不要とし、既存のテキストベースのインフラを活用してスケーラブルな実装を可能にします。コードは MIT ライセンスで GitHub で公開されており、企業や開発者が自社のドキュメントで即座に試すことができるよう設計されています。結果として、単にテキストを叙述するだけでなく、文書構造に基づいて正確な根拠となる画像を提示する、真に実用的な AI チャットボットの構築が可能となりました。
