小規模ながら高精度:Llama Nemotron RAGモデルで視覚文書検索の精度を飛躍的に向上
NVIDIAが開発した「Llama Nemotron RAGモデル」は、テキストだけでなく画像やレイアウトを含む視覚的ドキュメント(PDF、スクリーンショット、図表など)に対する高精度な検索とリトリーブを可能にする小型で効果的なAIモデル群だ。特に、llama-nemotron-embed-vl-1b-v2(埋め込みモデル)とllama-nemotron-rerank-vl-1b-v2(再ランク付けモデル)の2つは、企業向けの多モーダルRAG(Retrieval-Augmented Generation)システム構築に最適化されており、標準のベクトルデータベースと即時連携可能。 両モデルは、17億パラメータのTransformerベースで、Llama 3.2とSigLip2の視覚エンコーダーを統合。埋め込みモデルはテキストと画像を同時に処理し、単一の2048次元ベクトルに圧縮。これにより、画像とテキストの両方を考慮した検索が可能になり、従来のテキスト中心の検索では見逃される重要な情報を抽出できる。再ランク付けモデルは、検索結果の上位候補を再評価し、関連性を高める。実測では、画像・テキスト・両方のモダリティで、既存モデルを上回る精度を達成。特に、検索精度(Recall@5)は、埋め込みモデル+再ランク付けモデルの組み合わせで、画像モダリティで77.64%を記録。 この性能は、企業の実務に直結している。Cadenceでは、設計仕様書や制約条件を多モーダルドキュメントとして管理し、「低消費電力モード対応の割り込みコントローラー拡張」など、複雑な要件に対して、関連する仕様セクションを即時検索。IBMは、ストレージ製品のマニュアルや図面をページ単位で処理し、専門用語や製品名の正確な文脈を捉えたページを優先してAIに提示。ServiceNowでは、社内PDFをチャットで検索する「Chat with PDF」機能に活用。複数の会話ターンにわたって関連ページを維持することで、自然な対話体験を実現。 これらのモデルは商用利用が可能で、公開ライセンスを備え、Hugging Faceなどから簡単に導入可能。NVIDIAは、多モーダルRAGの未来を支える「小規模ながら高精度」なAIツールとして、開発者と企業の実用化を支援している。
