Date

il y a 10 mois

Taille

98.09 GB

Organisation

Licence

CC BY 4.0

Balises

Multimodal

OCR

Réponse À Des Questions Visuelles

Compréhension De Document

Décrivain D'image

Llama Nemotron VLM v1 est un jeu de données d'images et de textes de haute qualité publié par NVIDIA en 2025 pour l'apprentissage post-VLM. Il est utilisé pour soutenir le modèle de compréhension de documents Llama-3.1-Nemotron-Nano-VL-8B-V1 publié par NVIDIA (prise en charge des réponses aux questions sur les documents, des réponses aux questions sur les graphes, de l'IA2D et d'autres scénarios). L'ensemble de données se compose de 21 sous-ensembles, totalisant 2 863 854 échantillons. Couvrant trois catégories : questions-réponses visuelles (QV), sous-titrage (description d'images) et reconnaissance optique de caractères (ROC), il comprend des jeux de données d'images publiques réannotées, des données OCR entièrement et semi-synthétisées (en chinois et en anglais, au niveau des caractères, des mots et des pages), ainsi que des jeux OCR annotés en interne. L'ensemble de données affine et améliore également les questions-réponses ou les sous-titres d'origine, ce qui le rend adapté à l'entraînement et à l'évaluation multimodaux d'applications telles que les agents intelligents, les assistants de chat et les RAG.

Les données comprennent :

VQA (Visual Question Answering) : 1 917 755 exemples
Sous-titrage : 131 718 échantillons
OCR (reconnaissance de texte) : 814 381 échantillons

Llama-Nemotron-VLM-Dataset-v1.torrent

Partage 2Téléchargement 0Terminé 35Total des téléchargements 125

Llama-Nemotron-VLM-Dataset-v1/
- README.md
  1.65 KB
- README.txt
  3.3 KB

Ce jeu de données est fourni par les utilisateurs de la communauté et est destiné uniquement à des fins éducatives et informatives. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour examen et retrait rapides.

undefined

Nemotron Personas France (Ensemble De Données De Personas Synthétiques Français)

il y a 3 mois

Nemotron-Personas-Brazil Ensemble De Données De Caractères Synthétiques Brésiliens

il y a 8 jours

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Utiliser ce jeu de données

Discuter sur Discord

Date

il y a 10 mois

Taille

98.09 GB

Organisation

Licence

CC BY 4.0

Balises

Multimodal

OCR

Réponse À Des Questions Visuelles

Compréhension De Document

Décrivain D'image

Les données comprennent :

VQA (Visual Question Answering) : 1 917 755 exemples
Sous-titrage : 131 718 échantillons
OCR (reconnaissance de texte) : 814 381 échantillons

Llama-Nemotron-VLM-Dataset-v1.torrent

Partage 2Téléchargement 0Terminé 35Total des téléchargements 125

Llama-Nemotron-VLM-Dataset-v1/
- README.md
  1.65 KB
- README.txt
  3.3 KB

undefined

Nemotron Personas France (Ensemble De Données De Personas Synthétiques Français)

il y a 3 mois

Nemotron-Personas-Brazil Ensemble De Données De Caractères Synthétiques Brésiliens

il y a 8 jours

Ensemble De Données De Transcription De Texte LightOnOCR-mix-0126

il y a 5 mois

Ensemble De Données d'inférence Mathématique Nemotron-Math-v2

il y a 8 jours

Ensemble De Données MCIF Pour l'instruction Multimodale Interlingue De Suivi

il y a 6 mois

Ensemble De Données d'évaluation Complète En Contexte Long LongBench-Pro

il y a 8 jours

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Ensemble De Données d'images Et De Textes Multimodaux Llama Nemotron VLM v1

Les données comprennent :

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Ensemble De Données d'images Et De Textes Multimodaux Llama Nemotron VLM v1

Les données comprennent :

undefined

Nemotron Personas France (Ensemble De Données De Personas Synthétiques Français)

Nemotron-Personas-Brazil Ensemble De Données De Caractères Synthétiques Brésiliens

Ensemble De Données De Transcription De Texte LightOnOCR-mix-0126

Ensemble De Données d'inférence Mathématique Nemotron-Math-v2

Ensemble De Données MCIF Pour l'instruction Multimodale Interlingue De Suivi

Ensemble De Données d'évaluation Complète En Contexte Long LongBench-Pro

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Ensemble De Données d'images Et De Textes Multimodaux Llama Nemotron VLM v1

Les données comprennent :

undefined

Nemotron Personas France (Ensemble De Données De Personas Synthétiques Français)

Nemotron-Personas-Brazil Ensemble De Données De Caractères Synthétiques Brésiliens

Ensemble De Données De Transcription De Texte LightOnOCR-mix-0126

Ensemble De Données d'inférence Mathématique Nemotron-Math-v2

Ensemble De Données MCIF Pour l'instruction Multimodale Interlingue De Suivi

Ensemble De Données d'évaluation Complète En Contexte Long LongBench-Pro

Créer de l'IA avec l'IA

HyperAI Newsletters

undefined

Nemotron Personas France (Ensemble De Données De Personas Synthétiques Français)

Nemotron-Personas-Brazil Ensemble De Données De Caractères Synthétiques Brésiliens

Ensemble De Données De Transcription De Texte LightOnOCR-mix-0126

Ensemble De Données d'inférence Mathématique Nemotron-Math-v2

Ensemble De Données MCIF Pour l'instruction Multimodale Interlingue De Suivi

Ensemble De Données d'évaluation Complète En Contexte Long LongBench-Pro

undefined

Nemotron Personas France (Ensemble De Données De Personas Synthétiques Français)

Nemotron-Personas-Brazil Ensemble De Données De Caractères Synthétiques Brésiliens

Ensemble De Données De Transcription De Texte LightOnOCR-mix-0126

Ensemble De Données d'inférence Mathématique Nemotron-Math-v2

Ensemble De Données MCIF Pour l'instruction Multimodale Interlingue De Suivi

Ensemble De Données d'évaluation Complète En Contexte Long LongBench-Pro