InternVideo2: توسيع نماذج الأساس لفهم الفيديو متعدد الوسائط

نقدم إنترنفيديو2، عائلة جديدة من نماذج الفيديو الأساسية (ViFM) التي تحقق أفضل النتائج في مجالات التعرف على الفيديو، مهام الفيديو-النص، والحوار المتمحور حول الفيديو. تصميمنا الأساسي هو نهج تدريجي للتدريب يوحّد بين نمذجة الفيديو المقنّعة، التعلم التضادي متعدد الوسائط، وتنبؤ العنصر التالي، مع زيادة حجم مشفّر الفيديو إلى 6 مليار معلمة. على مستوى البيانات، نركز على الاتساق الزماني والمكاني من خلال تقسيم الفيديوهات إلى قطاعات ذات معنى وإنشاء تعليقات صوتية للفيديو والصوت والكلام. هذا يحسن التناسق بين الفيديو والنص. من خلال التجارب الشاملة، نؤكد تصاميمنا ونبين الأداء المتفوق في أكثر من 60 مهمة فيديو وصوت. بشكل خاص، يتفوق نموذجنا على غيره في مختلف مقاييس الحوار المرتبط بالفيديو وفهم مقاطع الفيديو الطويلة، مما يبرز قدرته على الاستدلال وفهم السياقات الأطول. يمكن الوصول إلى الكود والنماذج عبر الرابط: https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2/.