Petits mais puissants : les modèles Llama Nemotron RAG révolutionnent la recherche multimodale dans les documents visuels
Les modèles Llama Nemotron RAG représentent une avancée significative dans la recherche multimodale sur les documents visuels, offrant une précision accrue et une latence faible grâce à des modèles compacts conçus pour fonctionner immédiatement avec les bases de données vectorielles standards. Dans les applications réelles, les données dépassent le texte : elles incluent des PDFs riches en graphiques, tableaux, contrats numérisés, captures d’écran et diapositives. Une approche basée uniquement sur le texte échoue à capturer ces éléments critiques. Les pipelines RAG multimodaux résolvent ce problème en combinant texte, images et disposition dans un même processus de récupération et de raisonnement, permettant ainsi des réponses plus précises et exploitables. Deux modèles légers, llama-nemotron-embed-vl-1b-v2 et llama-nemotron-rerank-vl-1b-v2, sont spécifiquement conçus pour la recherche dans des documents visuels. Le premier est un modèle d’encodage dense (single-vector) de 1,7 milliard de paramètres, basé sur Llama 3.2 1B et un encodeur visuel SigLip2 400M. Il transforme efficacement les documents PDF — texte extrait et image — en une seule représentation vectorielle de 2048 dimensions, compatible avec toutes les bases de données vectorielles existantes. Ce modèle utilise un apprentissage contrastif pour maximiser la similarité entre requêtes et documents pertinents, tout en minimisant celle avec les documents non pertinents. Le second modèle, llama-nemotron-rerank-vl-1b-v2, est un reranker cross-encoder qui réordonne les résultats pré-récupérés pour améliorer la pertinence. Il est également basé sur l’architecture Eagle, avec une couche de classification binaire fine-tunée pour le tâche de classement. Grâce à ce reranking, la précision de récupération augmente de 7,2 % (texte), 6,9 % (image) et 6 % (image + texte) par rapport au modèle d’encodage seul. Évalués sur cinq jeux de données de récupération documentaire visuelle — dont ViDoRe V1 à V3, DigitalCorpora-10k, Earnings V2 et deux jeux internes — les résultats montrent que llama-nemotron-embed-vl-1b-v2 dépasse ses prédécesseurs (comme llama-3.2-nemoretriever-1b-vlm-embed-v1 et llama-nemotron-embed-1b-v2) en précision, notamment sur les modalités image et image+texte. L’ajout du reranker améliore encore la performance, atteignant un Recall@5 moyen de 77,64 % pour l’image+texte, surpassant des modèles publics comme jina-reranker-m0 (interdit à l’usage commercial) et MonoQwen2-VL-v0.1. Ces modèles sont déjà utilisés par des entreprises comme Cadence, qui les intègrent à ses flux de conception logicielle pour retrouver automatiquement les sections de spécifications à modifier lors d’ajouts fonctionnels complexes. IBM les exploite pour améliorer la compréhension des documents techniques de stockage, en priorisant les pages contenant des acronymes ou termes techniques dans leur contexte. ServiceNow les utilise dans ses fonctionnalités « Chat with PDF » pour maintenir une conversation cohérente sur de grandes collections de documents. Enfin, les modèles sont disponibles sur Hugging Face, faciles à intégrer dans des systèmes RAG existants, et bénéficient d’une licence commerciale permissive. Leur taille réduite, leur performance élevée et leur compatibilité immédiate en font des outils idéaux pour des déploiements d’entreprise. Pour rester informé, suivez les canaux NVIDIA AI ou rejoignez le Discord Nemotron.
