InternVid-Full مجموعة بيانات نصية فيديو عالية الجودة وواسعة النطاق
التاريخ
الحجم
رابط النشر
العلامات

هذه المجموعة من البيانات هي مجموعة بيانات نصية فيديو عالية الجودة وواسعة النطاق تم إصدارها بشكل مشترك من قبل مختبر شنغهاي للذكاء الاصطناعي (مختبر شنغهاي للذكاء الاصطناعي) وجامعة نانجينغ والأكاديمية الصينية للعلوم ومؤسسات أخرى في عام 2024. وتهدف إلى تلبية الطلب المتزايد على نمذجة لغة الفيديو وتعزيز المزيد من التحسين في فهم الفيديو النموذجي الكبير وقدرات توليده.
باعتبارها واحدة من أكبر مجموعات بيانات الفيديو والنصوص العامة في العالم،يحتوي InternVid على أكثر من 7 ملايين مقطع فيديو مع أوصاف نصية مفصلة، تغطي 16 مشهدًا وحوالي 6000 وصفًا للحركة، ويبلغ إجمالي طولها ما يقرب من 760000 ساعة.ولديها تطابق عالي بين الفيديو والنص، ومجموعة البياناتالوصف النصي والفيديو متطابقان إلى حد كبير، مما يوفر "قاموس فيديو" لتدريب مهام التعلم المتعدد الوسائط مثل مطابقة الدلالات بين الفيديو والنص، واسترجاع الفيديو والنص، وتوليد الفيديو والنص.
حظي InternVid باهتمام واسع النطاق في المجتمع الأكاديمي، وتم تطبيقه على نموذج العالم متعدد الوسائط LWM، وتم استخدامه أو الإشارة إليه بواسطة Google و Stable AI في أعمال إنشاء الفيديو. فازت الورقة ذات الصلة بالاهتمام في المؤتمر الدولي لعام 2024 حول التعلم التمثيلي (ICLR 2024).