HyperAIHyperAI

Command Palette

Search for a command to run...

InternVideo2: توسيع نماذج الأساس لفهم الفيديو متعدد الوسائط

الملخص

نقدم إنترنفيديو2، عائلة جديدة من نماذج الفيديو الأساسية (ViFM) التي تحقق أفضل النتائج في مجالات التعرف على الفيديو، مهام الفيديو-النص، والحوار المتمحور حول الفيديو. تصميمنا الأساسي هو نهج تدريجي للتدريب يوحّد بين نمذجة الفيديو المقنّعة، التعلم التضادي متعدد الوسائط، وتنبؤ العنصر التالي، مع زيادة حجم مشفّر الفيديو إلى 6 مليار معلمة. على مستوى البيانات، نركز على الاتساق الزماني والمكاني من خلال تقسيم الفيديوهات إلى قطاعات ذات معنى وإنشاء تعليقات صوتية للفيديو والصوت والكلام. هذا يحسن التناسق بين الفيديو والنص. من خلال التجارب الشاملة، نؤكد تصاميمنا ونبين الأداء المتفوق في أكثر من 60 مهمة فيديو وصوت. بشكل خاص، يتفوق نموذجنا على غيره في مختلف مقاييس الحوار المرتبط بالفيديو وفهم مقاطع الفيديو الطويلة، مما يبرز قدرته على الاستدلال وفهم السياقات الأطول. يمكن الوصول إلى الكود والنماذج عبر الرابط: https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2/.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp