HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble De Données d'images Et De Textes Multimodaux Llama Nemotron VLM v1

Date

il y a 2 mois

Taille

98.09 GB

Organisation

NVIDIA

Licence

CC BY 4.0

Llama Nemotron VLM v1 est un jeu de données d'images et de textes de haute qualité publié par NVIDIA en 2025 pour l'apprentissage post-VLM. Il est utilisé pour soutenir le modèle de compréhension de documents Llama-3.1-Nemotron-Nano-VL-8B-V1 publié par NVIDIA (prise en charge des réponses aux questions sur les documents, des réponses aux questions sur les graphes, de l'IA2D et d'autres scénarios).

L'ensemble de données se compose de 21 sous-ensembles, totalisant 2 863 854 échantillons. Couvrant trois catégories : questions-réponses visuelles (QV), sous-titrage (description d'images) et reconnaissance optique de caractères (ROC), il comprend des jeux de données d'images publiques réannotées, des données OCR entièrement et semi-synthétisées (en chinois et en anglais, au niveau des caractères, des mots et des pages), ainsi que des jeux OCR annotés en interne. L'ensemble de données affine et améliore également les questions-réponses ou les sous-titres d'origine, ce qui le rend adapté à l'entraînement et à l'évaluation multimodaux d'applications telles que les agents intelligents, les assistants de chat et les RAG.

Les données comprennent :

  • VQA (Visual Question Answering) : 1 917 755 exemples
  • Sous-titrage : 131 718 échantillons
  • OCR (reconnaissance de texte) : 814 381 échantillons
Llama-Nemotron-VLM-Dataset-v1.torrent
Partage 1Téléchargement 0Terminés 12Téléchargements totaux 42
  • Llama-Nemotron-VLM-Dataset-v1/
    • README.md
      1.65 KB
    • README.txt
      3.3 KB
      • data/
        • Llama-Nemotron-VLM-Dataset-v1.zip
          98.09 GB

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp