Ensemble De Données d'images Et De Textes Multimodaux Llama Nemotron VLM v1
Date
URL de publication
Licence
CC BY 4.0
Catégories
Llama Nemotron VLM v1 est un jeu de données d'images et de textes de haute qualité publié par NVIDIA en 2025 pour l'apprentissage post-VLM. Il est utilisé pour soutenir le modèle de compréhension de documents Llama-3.1-Nemotron-Nano-VL-8B-V1 publié par NVIDIA (prise en charge des réponses aux questions sur les documents, des réponses aux questions sur les graphes, de l'IA2D et d'autres scénarios).
L'ensemble de données se compose de 21 sous-ensembles, totalisant 2 863 854 échantillons. Couvrant trois catégories : questions-réponses visuelles (QV), sous-titrage (description d'images) et reconnaissance optique de caractères (ROC), il comprend des jeux de données d'images publiques réannotées, des données OCR entièrement et semi-synthétisées (en chinois et en anglais, au niveau des caractères, des mots et des pages), ainsi que des jeux OCR annotés en interne. L'ensemble de données affine et améliore également les questions-réponses ou les sous-titres d'origine, ce qui le rend adapté à l'entraînement et à l'évaluation multimodaux d'applications telles que les agents intelligents, les assistants de chat et les RAG.
Les données comprennent :
- VQA (Visual Question Answering) : 1 917 755 exemples
- Sous-titrage : 131 718 échantillons
- OCR (reconnaissance de texte) : 814 381 échantillons