التاريخ

منذ 10 أشهر

الحجم

98.09 GB

المؤسسة

الترخيص

CC BY 4.0

الوسوم

متعدد الوسائط

OCR

الإجابة على الأسئلة البصرية

فهم المستندات

وصف الصورة

Llama Nemotron VLM v1 هي مجموعة بيانات عالية الجودة للصور والنصوص، أصدرتها NVIDIA عام 2025 للتدريب اللاحق على VLM. تُستخدم لدعم نموذج فهم المستندات Llama-3.1-Nemotron-Nano-VL-8B-V1 الذي أصدرته NVIDIA (يدعم الإجابة على أسئلة المستندات، والإجابة على أسئلة الرسوم البيانية، والذكاء الاصطناعي ثنائي الأبعاد، وغيرها من السيناريوهات). تتكون مجموعة البيانات من 21 مجموعة فرعية، بإجمالي 2,863,854 عينة. تغطي ثلاث فئات: الإجابة البصرية على الأسئلة (VQA)، والتعليقات التوضيحية (وصف الصور)، والتعرف الضوئي على الحروف (OCR)، وتتضمن مجموعات بيانات صور عامة مُعاد شرحها، وبيانات OCR مُركّبة بالكامل وشبه مُركّبة (باللغتين الصينية والإنجليزية، على مستوى الأحرف والكلمات والصفحات)، ومجموعات OCR مُعلّقة داخليًا. كما تُحسّن مجموعة البيانات وتُحسّن الإجابة الأصلية على الأسئلة أو التعليقات التوضيحية، مما يجعلها مناسبة للتدريب متعدد الوسائط وتقييم تطبيقات مثل الوكلاء الأذكياء، ومساعدي الدردشة، ومجموعات RAG.

تتضمن البيانات ما يلي:

VQA (الإجابة على الأسئلة المرئية): 1,917,755 مثالًا
الترجمة التوضيحية: 131,718 عينة
التعرف الضوئي على الحروف (OCR): 814,381 عينة

Llama-Nemotron-VLM-Dataset-v1.torrent

البذر 2جارٍ التنزيل 0مكتمل 35إجمالي التنزيلات 125

Llama-Nemotron-VLM-Dataset-v1/
- README.md
  1.65 KB
- README.txt
  3.3 KB

تم المساهمة بهذه المجموعة من البيانات من قبل مستخدمي المجتمع وهي مخصصة للأغراض التعليمية والإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

مجموعات البيانات ذات الصلة

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار