HyperAIHyperAI

Command Palette

Search for a command to run...

Nemotron ColEmbed V2 : Le nouveau standard en recherche multimodale, premier au classement ViDoRe V3

NVIDIA présente la famille Nemotron ColEmbed V2, une nouvelle génération de modèles d’embedding multimodaux conçus pour des performances de recherche d’information exceptionnelles dans les documents riches en contenu visuel. Ces modèles, disponibles en trois tailles (3B, 4B et 8B), adoptent une architecture à interaction tardive (late interaction), une approche qui permet une correspondance fine-grain entre les tokens de requête et ceux du document, qu’ils soient textuels ou visuels. Contrairement aux modèles à vecteur unique qui encodent toute la requête et le document en une seule représentation, les modèles ColEmbed V2 génèrent des embeddings multi-vecteurs, stockant séparément les représentations des tokens du document. Pendant l’inférence, chaque token de la requête est comparé à tous les tokens du document via l’opérateur MaxSim, qui sélectionne la similarité maximale pour chaque token de requête, puis somme ces valeurs pour produire un score de pertinence global. Cette méthode améliore significativement la précision, notamment dans des scénarios complexes impliquant des tables, graphiques, figures ou infographies. Les modèles Nemotron ColEmbed V2 dominent le benchmark ViDoRe V3, une évaluation récente et exigeante dédiée à la recherche dans les documents multimodaux pour les environnements d’entreprise. À la date du 3 février 2026, le modèle nemotron-colembed-vl-8b-v2 occupe la première place sur ce leaderboard, avec un score NDCG@10 de 63,42, suivi par le modèle 4B (61,54) et le modèle 3B (59,79), tous trois classés respectivement au 1er, 3e et 6e rang dans leur catégorie de poids. Ces résultats établissent une nouvelle référence en matière de précision pour la recherche multimodale. Les modèles sont basés sur des architectures fondamentales avancées : le modèle 3B repose sur SigLIP-2 Giant et Llama-3.2-3B, tandis que les versions 4B et 8B s’appuient sur Qwen3-VL. Leur entraînement suit une approche bi-encodeur, utilisant un apprentissage contrastif pour maximiser la similarité entre requêtes pertinentes et documents associés, tout en minimisant celle avec des documents négatifs. Une phase de fine-tuning en deux étapes est appliquée au modèle 3B, combinant des paires texte-questions puis texte-image, tandis que les versions plus grandes sont entraînées uniquement sur des paires texte-image. Une méthode de mining de négatifs rigoureuses, inspirée du travail NV-Retriever, est intégrée pour renforcer la discrimination. Des améliorations clés par rapport à la version V1 incluent une fusion de modèles post-entraînement, permettant d’obtenir la stabilité d’un ensemble sans surcharge d’inférence, ainsi qu’une augmentation significative des données synthétiques multilingues, améliorant la cohérence sémantique sur des documents complexes et multilingues. Ces modèles s’adressent principalement aux chercheurs et développeurs travaillant sur des systèmes de recherche multimodale exigeants, notamment dans les pipelines RAG (Retrieval-Augmented Generation) où des requêtes textuelles doivent extraire des éléments visuels précis. Ils sont disponibles sur Hugging Face et via le catalogue NGC de NVIDIA, accompagnés d’un blueprint RAG Enterprise pour faciliter leur intégration. En combinant haute précision, flexibilité et robustesse, Nemotron ColEmbed V2 marque une avancée majeure dans la recherche documentaire visuelle.

Liens associés

Nemotron ColEmbed V2 : Le nouveau standard en recherche multimodale, premier au classement ViDoRe V3 | Articles tendance | HyperAI