HyperAI

Llama Nemotron VLM v1 ist ein hochwertiger Bild- und Textdatensatz, der 2025 von NVIDIA für das VLM-Nachtraining veröffentlicht wurde. Er wird zur Unterstützung des von NVIDIA veröffentlichten Dokumentverständnismodells Llama-3.1-Nemotron-Nano-VL-8B-V1 verwendet (unterstützt die Beantwortung von Dokumentfragen, die Beantwortung von Graphfragen, AI2D und andere Szenarien).

Der Datensatz besteht aus 21 Teilmengen mit insgesamt 2.863.854 Beispielen. Er deckt drei Kategorien ab: visuelle Frage- und Antwortfunktion (VQA), Bildunterschriften und optische Zeichenerkennung (OCR). Er enthält neu annotierte öffentliche Bilddatensätze, vollständig und teilweise synthetisierte OCR-Daten (auf Chinesisch und Englisch, auf Zeichen-, Wort- und Seitenebene) sowie intern annotierte OCR-Sätze. Der Datensatz verfeinert und verbessert zudem die ursprüngliche Frage- und Antwortfunktion bzw. die Bildunterschriften und eignet sich daher für das multimodale Training und die Evaluierung von Anwendungen wie intelligenten Agenten, Chat-Assistenten und RAGs.

Die Daten umfassen:

VQA (Visual Question Answering): 1.917.755 Beispiele

Untertitelung: 131.718 Beispiele

OCR (Texterkennung): 814.381 Beispiele

Llama Nemotron VLM v1 Multimodaler Bild- Und Textdatensatz

Die Daten umfassen:

KI mit KI entwickeln

Hyper Newsletters

Command Palette

Llama Nemotron VLM v1 Multimodaler Bild- Und Textdatensatz

Die Daten umfassen:

KI mit KI entwickeln

Hyper Newsletters