HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA présente NeMo Retriever Parse : un modèle VLM pour transformer les documents complexes en données exploitables

NVIDIA a lancé NeMo Retriever Parse, un modèle avancé basé sur un Vision Language Model (VLM) conçu pour transformer des documents complexes en données exploitables. Les entreprises génèrent et stockent de grandes quantités de données non structurées, comme les rapports de recherche, les contrats, les états financiers ou les manuels techniques. Les technologies traditionnelles de reconnaissance optique de caractères (OCR) rencontrent des difficultés à extraire des informations pertinentes en raison des dispositions complexes, des variations de structure et de la difficulté à conserver la continuité entre les pages. NeMo Retriever Parse vise à résoudre ces problèmes en offrant une compréhension structurée et sémantique des documents. Ce modèle, basé sur une architecture de transformer, est optimisé pour une extraction précise du texte et des tableaux, tout en préservant la disposition et l'ordre de lecture. Il fait partie de la famille de microservices NeMo Retriever, permettant de construire des pipelines d'ingestion et de recherche multimodaux avec une grande précision et une forte protection des données. Son architecture combine un encodeur vision (ViT-H) avec un décodeur mBART, offrant une capacité d'analyse spatiale et sémantique. Parmi ses principales fonctionnalités, on retrouve une extraction précise du texte et des formules, la localisation spatiale et la classification des éléments de document, le support des formats de sortie comme le texte brut ou le markdown, ainsi une intégration fluide dans les pipelines de recherche. Il améliore ainsi la précision des systèmes de récupération d'informations en segmentant correctement les composants d'un document. En termes de performance, NeMo Retriever Parse a été testé sur plusieurs benchmarks clés, notamment le GOT Dense OCR Benchmark et le NVIDIA Internal Document OCR Benchmark, pour l'extraction de texte, ainsi que sur PubTabNet et RD-TableBench pour l'extraction de tableaux. Les résultats montrent une très bonne précision, avec des scores élevés en F1, en NED et en METEOR. Sur PubTabNet, il obtient un TEDS de 80,20 et un S-TEDS de 92,20, dépassant largement les modèles existants. Sur RD-TableBench, il affiche une amélioration notable dans l'extraction de tableaux complexes, notamment ceux en plusieurs langues ou avec des cellules fusionnées. NeMo Retriever Parse offre une extraction quasi sans perte de texte, une précision élevée dans les tâches de tableaux et une segmentation structurée efficace. Il est actuellement conçu pour le langage anglais, mais des développements sont en cours pour étendre sa compatibilité aux documents en chinois et aux textes manuscrits. L'augmentation de la longueur du contexte permettrait également une meilleure compréhension des documents. En tant que solution de pointe, NeMo Retriever Parse représente une avancée majeure dans le domaine de l'intelligence des documents. Il permet aux entreprises et aux chercheurs de mieux interagir avec leurs données en les transformant en informations structurées et exploitables. Les experts du secteur soulignent son potentiel pour révolutionner les processus de traitement documentaire, en particulier dans des environnements où la précision et la cohérence sont essentielles. Son approche intégrée et son architecture optimisée en font un outil clé pour les workflows de traitement des documents critiques.

Liens associés

NVIDIA présente NeMo Retriever Parse : un modèle VLM pour transformer les documents complexes en données exploitables | Articles tendance | HyperAI