NVIDIA NeMo Retriever Parse: Dokumente in Daten umwandeln
NVIDIA hat eine neue Technologie namens NeMo Retriever Parse vorgestellt, die darauf abzielt, komplexe Dokumente in nutzbare Daten umzuwandeln. Unternehmen generieren und speichern große Mengen an unstrukturierten Daten in Form von Forschungsberichten, Verträgen, Finanzberichten und technischen Handbüchern. Die Extraktion von nützlichen Erkenntnissen aus diesen Dokumenten stellt traditionelle OCR-Technologien vor Herausforderungen, da sie Schwierigkeiten haben, komplexe Layouts, strukturelle Variabilität und die Kontinuität über mehrere Seiten hinweg zu bewältigen. NeMo Retriever Parse basiert auf einer transformer-basierten Vision-Language-Model (VLM)-Technologie und ist darauf optimiert, die schwierigsten Aspekte der Dokumentenintelligenz zu meistern. Das Modell ermöglicht eine präzise Extraktion von Text und Tabellen sowie eine semantische Verarbeitung von Dokumenten mit räumlicher Verankerung. Es ist Teil der NeMo Retriever-Familie von Mikroservices, die für die Erstellung von multimodalen Eingangs- und Retrieval-Pipelines entwickelt wurden und dabei eine hohe Genauigkeit und maximale Datenverschlüsselung gewährleisten. Die Kernkomponente des Modells ist ein Vision-Encoder-Decoder-Modell, das auf einem ViT-H-Modell basiert und für die präzise Dokumentenverarbeitung optimiert ist. Es kann Text, Formeln, Tabellen, Figuren und andere strukturierte Elemente mit ihrer räumlichen Anordnung und semantischen Klassifizierung extrahieren. Zu den Schlüsselkompetenzen zählen die präzise Text- und Formel-Extraktion in der richtigen Lesereihenfolge, die räumliche Lokalisierung und Klassifizierung von Dokumentenelementen sowie die Unterstützung von Text- und Markdown-Formaten. NeMo Retriever Parse verbessert die Genauigkeit von Retrieval-Pipelines, indem es Dokumentenkomponenten präzise klassifiziert und segmentiert. Es nutzt Bounding Boxes, um das Layout zu bewahren und die Klassifizierung von Inhalten wie Kopfzeilen oder Fußzeilen sicherzustellen. Zudem ermöglicht es die Extraktion strukturierter Inhalte, was die Genauigkeit von LLMs und VLMs erhöht. Das Modell kann auch mit verschiedenen Dateiformaten wie PDFs und PowerPoint-Präsentationen umgehen, was neue Effizienzen bei der Wissensextraktion ermöglicht. Die Architektur des Modells besteht aus einem ViT-H-Vision-Encoder mit 600 Mio. Parametern und einem mBART-basierten Decoder mit 250 Mio. Parametern. Im Gegensatz zu anderen Ansätzen verwendet es einen leistungsstarken Encoder und einen leichteren Decoder, um komplexe Layouts effizient zu analysieren. Eine zentrale technische Innovation ist der einheitliche Tokenisierungsansatz, der nicht nur Text, sondern auch Bounding-Box-Koordinaten und semantische Klassen in der Ausgabesequenz integriert. Dies ermöglicht eine reichhaltige, strukturierte Ausgabe, die Text, räumliche und semantische Informationen gleichzeitig enthält. Die Entwicklung des Modells erfolgte in zwei Schritten: zunächst eine Vortraining auf dem arXiv-5M-Datensatz, gefolgt von einer Feinabstimmung auf verschiedenen Korpora. Multi-Token-Training (MTT) wurde eingesetzt, um die Vorhersagefähigkeit des Modells zu verbessern und die Abhängigkeiten für die strukturierte Sequenzgenerierung zu verfolgen. Für die Text- und Tabellenextraktion wurde NeMo Retriever Parse anhand von Benchmark-Tests wie GOT Dense OCR Benchmark, PubTabNet und RD-TableBench bewertet. In diesen Tests erreichte es hohe Genauigkeitswerte, insbesondere bei der Tabellenextraktion, wo es gegenüber anderen Modellen deutlich besser abschnitt. Die Evaluierung zeigte, dass das Modell sowohl die Textgenauigkeit als auch die strukturelle Rekonstruktion von Tabellen verbessert. Industrielle Experten betonen, dass NeMo Retriever Parse eine wegweisende Lösung für die Dokumentenverarbeitung bietet. Es ermöglicht Unternehmen, komplexe Dokumente effizienter zu analysieren und zu strukturieren. Das Modell ist aktuell auf Englisch optimiert und wird in Zukunft auch für Chinesisch und Handschriften erweitert. Es wird als Schlüsseltechnologie für mission-kritische Dokumentenverarbeitungsprozesse angesehen.
