Neue NVIDIA-Nemotron-Modelle für spezialisierte KI-Agenten mit Visueller Sprachverarbeitung und Sicherheitsfunktionen
NVIDIA stellt mit der neuen Nemotron-Model-Familie eine umfassende Open-Source-Plattform für agentic AI vor, die spezialisierte Sprach- und Visuallernmodelle integriert, um Planung, Schlussfolgerung, Informationsabruf und Sicherheitskontrolle in agilen Systemen zu ermöglichen. Die Modelle sind darauf ausgelegt, in spezifischen Anwendungsbereichen wie Dokumentenintelligenz, Videoanalyse, multilingualem Content-Safety und Retrieval-augmented Generation (RAG) eingesetzt zu werden. Entwickler erhalten nun Zugang zu offenen Modellen, hochwertigen Datensätzen, optimierten Trainingsrezepten und effizienten Inferenzlösungen – drei Schlüsselkomponenten für den erfolgreichen Einsatz von AI-Agenten in der Praxis. Ein zentraler Bestandteil ist das Nemotron Nano 3, ein 32-Billionen-Parameter-MoE-Modell mit nur 3,6 Billionen aktiven Parametern. Es bietet höhere Durchsatzraten als vergleichbare dichte Modelle, unterstützt tiefgreifende Selbstreflexion und liefert exzellente Ergebnisse bei wissenschaftlicher Schlussfolgerung, Programmierung, Mathematik und Tool-Aufrufen. Dank der MoE-Architektur sinken Compute-Kosten und Latenz. Für multimodale Aufgaben präsentiert NVIDIA Nemotron Nano 2 VL, ein 12-Billionen-Parameter-Vision-Language-Modell, das auf dem OCRBenchV2 führend ist. Es verarbeitet Text, Bilder, Tabellen und Videos, was es ideal für Anwendungen wie Berichterstellung, Videozusammenfassung und Medien-Asset-Management macht. Die Hybridarchitektur aus Mamba und Transformer sorgt für hohe Genauigkeit, schnelle Token-Throughput und geringe Latenz. Ein besonderes Merkmal ist die Efficient Video Sampling (EVS)-Methode, die zeitlich statische Bildbereiche in Videos identifiziert und entfernt, wodurch die Verarbeitungsgeschwindigkeit um bis zu 2,5x steigt, ohne die Genauigkeit zu beeinträchtigen. Das Modell ist in FP4, FP8 und BF16 quantisiert und läuft effizient mit vLLM und TRT-LLM. Für Dokumentenverarbeitung bietet Nemotron Parse 1.1 eine kompakte 1-Billionen-Parameter-Lösung, die strukturierte Texte und Tabellen mit Positionsangaben und Semantikklassen extrahiert – ideal für verbesserte Retrieval-Systeme und präzisere LLM-Trainingsdaten. Es erreicht Spitzenwerte auf dem PubTabNet-Benchmark. Die Nemotron RAG-Suite ermöglicht skalierbare, sicherheitskritische RAG-Pipelines mit Datenprivatsphäre und sicheren Verbindungen zu proprietären Daten. Sie ist Bestandteil von NVIDIA AI-Q und dem RAG Blueprint und unterstützt Anwendungen wie Multi-Agenten-Systeme, generative Co-Piloten und intelligentes Datenzusammenfassung. Für Sicherheit präsentiert NVIDIA den Llama 3.1 Nemotron Safety Guard 8B V3, ein multilinguales Modell, das in neun Sprachen (einschließlich Arabisch, Hindi, Japanisch) und 23 kulturell angepassten Sicherheitskategorien arbeitet. Es nutzt LLM-gestützte kulturelle Anpassung und Konsistenzfilter, um präzise, fehlerfreie Moderation zu gewährleisten. Mit 84,2 % Genauigkeit bei geringer Latenz ist es ideal für agentic AI-Pipelines. Zusätzlich steht die NeMo Evaluator SDK zur Verfügung, um Modelle reproduzierbar zu bewerten, inklusive dynamischer Interaktionen über ProfBench. Der NeMo Agent Toolkit mit automatischer Hyperparameter-Optimierung beschleunigt die Entwicklung von Agenten, Tools und Workflows. Alle Modelle sind auf Hugging Face und NVIDIA NIM verfügbar. Entwickler können sie direkt nutzen oder über Plattformen wie Baseten, Deep Infra oder Replicate skalieren. Mit den neuen Tools und Modellen wird die Entwicklung sicherer, effizienter und globaler agenter Systeme nun einfacher und transparenter.
