
Abstract
Wir stellen Nemotron Nano V2 VL vor, das neueste Modell der Nemotron-Serie für visuelle Sprachmodelle, das speziell für eine leistungsstarke Verarbeitung realer Dokumente, die Analyse langer Videos sowie komplexe Schlussfolgerungsaufgaben entwickelt wurde. Nemotron Nano V2 VL erreicht gegenüber unserem vorherigen Modell, Llama-3.1-Nemotron-Nano-VL-8B, erhebliche Verbesserungen in allen Bereichen von Bild- und Textverarbeitung dank wesentlicher Fortschritte in Architektur, Datensätzen und Trainingsverfahren. Das Modell baut auf Nemotron Nano V2 auf, einem hybriden Mamba-Transformer-LLM, und nutzt innovative Techniken zur Reduktion von Token, um eine höhere Durchsatzleistung bei der Verarbeitung langer Dokumente und Videos zu erzielen. Wir veröffentlichen Modell-Checkpoints in den Formaten BF16, FP8 und FP4 sowie große Teile unserer Datensätze, Trainingsrezepte und Trainingscode.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.