HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA、マルチモーダル検索の新基準を提示——Nemotron ColEmbed V2がViDoRe V3でトップ性能

NVIDIAは、複数のモダリティを統合した文書検索の精度を飛躍的に向上させる新モデル「Nemotron ColEmbed V2」を発表した。このモデルは、テキスト、表、グラフ、図など多様な要素を含む視覚的文書から正確に情報を抽出するための高度なマルチモーダル埋め込み技術を搭載しており、企業向けの実用的検索システムに特化している。特に、ViDoRe V3という新ベンチマークで、3種類のサイズ(3B、4B、8B)のモデルがそれぞれのパラメータクラスでトップランクを獲得し、8Bモデルは全体で1位を記録。これは、複雑な視覚文書の検索性能において、業界の新しい基準を確立したことを意味する。 ColEmbed V2は「ラテインタラクション型」のアーキテクチャを採用しており、クエリと文書の各トークン同士を細かく比較する仕組みを実現。具体的には、MaxSim演算により各クエリトークンと文書のすべてのトークン間の類似度の最大値を選び、それらを合算して最終的な関連性スコアを生成する。この方法は、従来の単一ベクトル方式に比べてより精密な意味的関係の把握が可能だが、文書のトークン埋め込みをすべて保持する必要があるため、ストレージ消費が増えるという課題もある。 モデルの構成は、Llama-3.2-3Bを基盤とする3Bモデルと、Qwen3-VLをベースにした4B・8Bモデルで、それぞれ異なる視覚言語モデル(VLM)を活用。訓練はバイエンコーダー構造で行われ、テキストと画像のペアデータを用いた対照学習により、正解文書との類似性を高め、誤検索を抑制。さらに、合成データの多様化と、複数のチェックポイントを統合する「モデルマージ」技術により、精度の安定性を向上させた。 このモデルは、高精度が求められる研究や企業のRAG(Retrieval-Augmented Generation)システムに適しており、たとえば、テキストクエリで図や表を検索するといった応用が可能。Hugging FaceやNVIDIA NGCからダウンロード可能で、NVIDIA Enterprise RAG Blueprintとも連携可能。今後、マルチモーダル検索の研究と実用化を加速する重要なツールとなる。

関連リンク

NVIDIA、マルチモーダル検索の新基準を提示——Nemotron ColEmbed V2がViDoRe V3でトップ性能 | 人気の記事 | HyperAI超神経