HyperAIHyperAI

Llama Nemotron VLM v1 Multimodaler Bild- Und Textdatensatz

Datum

vor 7 Tagen

Organisation

NVIDIA

Veröffentlichungs-URL

huggingface.co

Lizenz

CC BY 4.0

Download-Hilfe

Llama Nemotron VLM v1 ist ein hochwertiger Bild- und Textdatensatz, der 2025 von NVIDIA für das VLM-Nachtraining veröffentlicht wurde. Er wird zur Unterstützung des von NVIDIA veröffentlichten Dokumentverständnismodells Llama-3.1-Nemotron-Nano-VL-8B-V1 verwendet (unterstützt die Beantwortung von Dokumentfragen, die Beantwortung von Graphfragen, AI2D und andere Szenarien).

Der Datensatz besteht aus 21 Teilmengen mit insgesamt 2.863.854 Beispielen. Er deckt drei Kategorien ab: visuelle Frage- und Antwortfunktion (VQA), Bildunterschriften und optische Zeichenerkennung (OCR). Er enthält neu annotierte öffentliche Bilddatensätze, vollständig und teilweise synthetisierte OCR-Daten (auf Chinesisch und Englisch, auf Zeichen-, Wort- und Seitenebene) sowie intern annotierte OCR-Sätze. Der Datensatz verfeinert und verbessert zudem die ursprüngliche Frage- und Antwortfunktion bzw. die Bildunterschriften und eignet sich daher für das multimodale Training und die Evaluierung von Anwendungen wie intelligenten Agenten, Chat-Assistenten und RAGs.

Die Daten umfassen:

  • VQA (Visual Question Answering): 1.917.755 Beispiele
  • Untertitelung: 131.718 Beispiele
  • OCR (Texterkennung): 814.381 Beispiele
Llama Nemotron VLM v1 Multimodaler Bild- Und Textdatensatz | Datensätze | HyperAI