Command Palette
Search for a command to run...
مجموعة بيانات الصور والنصوص متعددة الوسائط VL3-Syn7M
مجموعة البيانات VL3-Syn7M هي مجموعة بيانات نصية وصورية عالية الجودة أصدرتها أكاديمية Alibaba DAMO في عام 2025. وتهدف إلى مساعدة نموذج VideoLLaMA3 الأساسي متعدد الوسائط المتطور لفهم الفيديو على تحقيق تقدم كبير في الفهم متعدد الوسائط. نتائج الورقة ذات الصلة هي:VideoLLaMA 3: نماذج أساسية متعددة الوسائط لفهم الصور والفيديوتحتوي مجموعة البيانات على تعليقات توضيحية دقيقة متعددة الأبعاد، بما في ذلك تعليقات توضيحية مفصلة للصور، وتعليقات توضيحية قصيرة، ومعلومات عن مصدر الصورة، وتغطي أنواعًا مختلفة من البيانات، مثل صور المشاهد، وصور المستندات، والصور النصية، مما يوفر مادة ثرية للنموذج لتعلم المعلومات متعددة الوسائط. توفر هذه البيانات عالية الجودة دعمًا قيّمًا للبحث المتعمق في فهم دلالات الصور وتحسين أنظمة التفاعل متعددة الوسائط، وتعزز تطوير الصناعات ذات الصلة، مثل المساعدات البصرية الذكية، وأدوات فهم المستندات، وتفاعل الروبوتات الموجهة بالصور.
الميزات الرئيسية
- مقياس بيانات كبير: يحتوي على 7 ملايين صورة وتعليقات توضيحية مقابلة، مما يوفر عينات ضخمة لتدريب النموذج، ويلبي بشكل كامل احتياجات النماذج المعقدة للبيانات واسعة النطاق، ويساعد في تحسين قدرة النموذج على فهم المشاهد البصرية والدلالات المختلفة.
- مصادر البيانات واسعة: تأتي صور المشهد من مجموعات بيانات متعددة مختلفة مثل Object365 وSA-1B، مما يزيد بشكل كبير من تنوع البيانات؛ تأتي صور نصوص المشهد من BLIP3-OCR؛ يتم اختيار صور المستندات من ملفات pdfa-eng-wds وidl-wds وما إلى ذلك. ويضمن النطاق الواسع لمصادر البيانات أن تغطي البيانات محتوى ومشاهد مرئية غنية ومتنوعة، مما يمكن أن يعزز قدرة النموذج على تعميم وفهم أنواع مختلفة من الصور.
- جودة التعليقات التوضيحية العالية: يتم إنشاء ترجمات قصيرة بواسطة InternVL2-8B، ويتم إكمال الترجمات التفصيلية بواسطة InternVL2-26B، وتحتوي على كمية كبيرة من بيانات النص العادي. توفر تعليقات التسمية التوضيحية عالية الجودة إرشادات دقيقة للنموذج لتعلم الارتباط بين الصور والنص، بينما تساعد بيانات النص العادي في تحسين قدرة النموذج على التعامل مع التعليمات التالية للمهام التي تنطوي على مدخلات مرئية ونصية.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.