HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة بيانات الصور والنصوص متعددة الوسائط Llama Nemotron VLM v1

التاريخ

منذ 2 أشهر

الحجم

98.09 GB

المؤسسة

إنفيديا

الترخيص

CC BY 4.0

Llama Nemotron VLM v1 هي مجموعة بيانات عالية الجودة للصور والنصوص، أصدرتها NVIDIA عام 2025 للتدريب اللاحق على VLM. تُستخدم لدعم نموذج فهم المستندات Llama-3.1-Nemotron-Nano-VL-8B-V1 الذي أصدرته NVIDIA (يدعم الإجابة على أسئلة المستندات، والإجابة على أسئلة الرسوم البيانية، والذكاء الاصطناعي ثنائي الأبعاد، وغيرها من السيناريوهات).

تتكون مجموعة البيانات من 21 مجموعة فرعية، بإجمالي 2,863,854 عينة. تغطي ثلاث فئات: الإجابة البصرية على الأسئلة (VQA)، والتعليقات التوضيحية (وصف الصور)، والتعرف الضوئي على الحروف (OCR)، وتتضمن مجموعات بيانات صور عامة مُعاد شرحها، وبيانات OCR مُركّبة بالكامل وشبه مُركّبة (باللغتين الصينية والإنجليزية، على مستوى الأحرف والكلمات والصفحات)، ومجموعات OCR مُعلّقة داخليًا. كما تُحسّن مجموعة البيانات وتُحسّن الإجابة الأصلية على الأسئلة أو التعليقات التوضيحية، مما يجعلها مناسبة للتدريب متعدد الوسائط وتقييم تطبيقات مثل الوكلاء الأذكياء، ومساعدي الدردشة، ومجموعات RAG.

تتضمن البيانات ما يلي:

  • VQA (الإجابة على الأسئلة المرئية): 1,917,755 مثالًا
  • الترجمة التوضيحية: 131,718 عينة
  • التعرف الضوئي على الحروف (OCR): 814,381 عينة
Llama-Nemotron-VLM-Dataset-v1.torrent
البذر 2التنزيل 0مكتمل 12إجمالي التنزيلات 43
  • Llama-Nemotron-VLM-Dataset-v1/
    • README.md
      1.65 KB
    • README.txt
      3.3 KB
      • data/
        • Llama-Nemotron-VLM-Dataset-v1.zip
          98.09 GB

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp