NVIDIA stellt Nemotron ColEmbed V2 vor: Spitzenleistung in der multimodalen Dokumentensuche
NVIDIA hat mit dem Nemotron ColEmbed V2 eine neue Generation von multimodalen Embedding-Modellen vorgestellt, die sich durch herausragende Genauigkeit bei der Informationsabrufung aus visuellen Dokumenten auszeichnet. Ziel ist es, komplexe, bildreiche Unterlagen wie Berichte, Tabellen, Diagramme oder Infografiken effizient und präzise zu durchsuchen – ein zentrales Anliegen für moderne Retrieval- und RAG-Systeme in Unternehmensanwendungen. Die neue Modellfamilie basiert auf einem späten Interaktionsansatz (late interaction), bei dem nicht mehr das gesamte Dokument in einen einzigen Vektor kodiert wird, sondern einzelne Token von Text und Bild unabhängig in mehreren Vektoren repräsentiert werden. Diese Vektoren werden dann über die MaxSim-Operation miteinander verglichen: Für jeden Abfrage-Token wird die höchste Ähnlichkeit zu allen Dokument-Token ermittelt, und die Summe dieser Maxima ergibt die endgültige Relevanzbewertung. Dies ermöglicht eine feinere semantische Analyse und führt zu signifikant besseren Ergebnissen im Vergleich zu klassischen Single-Vector-Ansätzen. Die drei Modelle – nemotron-colembed-vl-8b-v2 (8,8B Parameter), nemotron-colembed-vl-4b-v2 (4,8B) und llama-nemotron-colembed-vl-3b-v2 (4,4B) – erreichen Spitzenwerte auf dem ViDoRe V3-Benchmark, einem neu entwickelten Standard für enterprise-relevante visuelle Dokumentensuche. Dabei belegt das 8B-Modell den ersten Platz, das 4B-Modell den dritten und das 3B-Modell den sechsten Rang – jeweils die besten Ergebnisse in ihrer Größenklasse. Die Modelle basieren auf unterschiedlichen Grundarchitekturen: Das 3B-Modell baut auf Llama-3.2-3B und SigLIP-2-Giant auf, während die größeren Versionen auf Qwen3-VL-Modellen aufbauen. Alle wurden mit einem bi-encoder-Architektur trainiert, wobei Kontrastive Lernverfahren eingesetzt wurden, um die Ähnlichkeit zwischen korrekten Query-Dokument-Paaren zu maximieren und falsche Paare zu minimieren. Besonders hervorzuheben ist die Verwendung von hard negative mining und einer erweiterten synthetischen Datengenerierung, die multilinguale und strukturell komplexe Dokumente besser erfassen. Im Gegensatz zu NVIDIAs kürzlich veröffentlichtem 1B-Modell, das auf Effizienz und geringen Speicherbedarf ausgerichtet ist, richtet sich ColEmbed V2 an Forschungseinrichtungen und Anwendungen, bei denen Genauigkeit oberste Priorität hat – etwa in der medizinischen Dokumentensuche, Finanzberichtsanalyse oder technischer Dokumentation. Die Modelle eignen sich ideal für multimodale RAG-Systeme, in denen Textanfragen Bilder, Tabellen oder Diagramme zurückliefern. Sie sind über Hugging Face und NVIDIA NGC verfügbar und können direkt in bestehende Workflows integriert werden. Industrieexperten sehen in ColEmbed V2 einen Meilenstein für die Entwicklung von intelligenten Suchsystemen in der Unternehmenswelt. „Die Einführung von späten Interaktionen in der multimodalen Suche ist ein entscheidender Fortschritt“, sagt ein Experte für maschinelles Lernen bei einer führenden Tech-Firma. „Die Kombination aus hochwertigen synthetischen Daten und Modellverschmelzung sorgt für eine Stabilität, die bisher nur mit Ensembles erreichbar war – aber ohne zusätzlichen Rechenaufwand.“ Die NVIDIA NeMo Retriever-Familie wird damit zu einer zentralen Plattform für die nächste Generation von Enterprise-RAG-Anwendungen.
