HyperAI

InternVid-Full مجموعة بيانات نصية فيديو عالية الجودة وواسعة النطاق

التاريخ

منذ عام واحد

الحجم

6.2 GB

المؤسسة

مختبر الذكاء الاصطناعي في شنغهاي

رابط النشر

huggingface.co

特色图像

هذه المجموعة من البيانات هي مجموعة بيانات نصية فيديو عالية الجودة وواسعة النطاق تم إصدارها بشكل مشترك من قبل مختبر شنغهاي للذكاء الاصطناعي (مختبر شنغهاي للذكاء الاصطناعي) وجامعة نانجينغ والأكاديمية الصينية للعلوم ومؤسسات أخرى في عام 2024. وتهدف إلى تلبية الطلب المتزايد على نمذجة لغة الفيديو وتعزيز المزيد من التحسين في فهم الفيديو النموذجي الكبير وقدرات توليده.

باعتبارها واحدة من أكبر مجموعات بيانات الفيديو والنصوص العامة في العالم،يحتوي InternVid على أكثر من 7 ملايين مقطع فيديو مع أوصاف نصية مفصلة، تغطي 16 مشهدًا وحوالي 6000 وصفًا للحركة، ويبلغ إجمالي طولها ما يقرب من 760000 ساعة.ولديها تطابق عالي بين الفيديو والنص، ومجموعة البياناتالوصف النصي والفيديو متطابقان إلى حد كبير، مما يوفر "قاموس فيديو" لتدريب مهام التعلم المتعدد الوسائط مثل مطابقة الدلالات بين الفيديو والنص، واسترجاع الفيديو والنص، وتوليد الفيديو والنص.

حظي InternVid باهتمام واسع النطاق في المجتمع الأكاديمي، وتم تطبيقه على نموذج العالم متعدد الوسائط LWM، وتم استخدامه أو الإشارة إليه بواسطة Google و Stable AI في أعمال إنشاء الفيديو. فازت الورقة ذات الصلة بالاهتمام في المؤتمر الدولي لعام 2024 حول التعلم التمثيلي (ICLR 2024).

InternVid-Full.torrent
البذر 1التنزيل 1مكتمل 106إجمالي التنزيلات 167
  • InternVid-Full/
    • README.md
      1.74 KB
    • README.txt
      3.48 KB
      • data/
        • InternVid-Full.zip
          6.2 GB