HyperAIHyperAI

مجموعة بيانات الصور والنصوص متعددة الوسائط Llama Nemotron VLM v1

مساعدة التنزيل

Llama Nemotron VLM v1 هي مجموعة بيانات عالية الجودة للصور والنصوص، أصدرتها NVIDIA عام 2025 للتدريب اللاحق على VLM. تُستخدم لدعم نموذج فهم المستندات Llama-3.1-Nemotron-Nano-VL-8B-V1 الذي أصدرته NVIDIA (يدعم الإجابة على أسئلة المستندات، والإجابة على أسئلة الرسوم البيانية، والذكاء الاصطناعي ثنائي الأبعاد، وغيرها من السيناريوهات).

تتكون مجموعة البيانات من 21 مجموعة فرعية، بإجمالي 2,863,854 عينة. تغطي ثلاث فئات: الإجابة البصرية على الأسئلة (VQA)، والتعليقات التوضيحية (وصف الصور)، والتعرف الضوئي على الحروف (OCR)، وتتضمن مجموعات بيانات صور عامة مُعاد شرحها، وبيانات OCR مُركّبة بالكامل وشبه مُركّبة (باللغتين الصينية والإنجليزية، على مستوى الأحرف والكلمات والصفحات)، ومجموعات OCR مُعلّقة داخليًا. كما تُحسّن مجموعة البيانات وتُحسّن الإجابة الأصلية على الأسئلة أو التعليقات التوضيحية، مما يجعلها مناسبة للتدريب متعدد الوسائط وتقييم تطبيقات مثل الوكلاء الأذكياء، ومساعدي الدردشة، ومجموعات RAG.

تتضمن البيانات ما يلي:

  • VQA (الإجابة على الأسئلة المرئية): 1,917,755 مثالًا
  • الترجمة التوضيحية: 131,718 عينة
  • التعرف الضوئي على الحروف (OCR): 814,381 عينة
مجموعة بيانات الصور والنصوص متعددة الوسائط Llama Nemotron VLM v1 | مجموعات البيانات | HyperAI