HyperAIHyperAI

Command Palette

Search for a command to run...

InternVideo: نماذج أسس الفيديو العامة من خلال التعلم الجيني والتمييزي

الملخص

أظهرت نماذج الأساس مؤخرًا أداءً ممتازًا في مجموعة متنوعة من المهام الثانوية في رؤية الحاسوب. ومع ذلك، فإن معظم النماذج الحالية لرؤية الأساس تركز ببساطة على التدريب الأولي والتكيف على مستوى الصورة، مما يحد من قدرتها على فهم المهام المعقدة والديناميكية على مستوى الفيديو. لسد هذه الفجوة، نقدم نماذج أساس الفيديو العامة "InternVideo"، والتي تستفيد من التعلم الذاتي الجينراتي (الإنتاجي) والتميزي (التمييز) للفيديو. تحديدًا، يستكشف "InternVideo" بكفاءة نمذجة الفيديو المقنعة وتعلم التباين بين الفيديو واللغة كأهداف للتدريب الأولي، ويقوم بتنسيق اختياري لممثلات الفيديو لهذه الإطارين المكملين بطريقة قابلة للتعلم لتعزيز مجموعة متنوعة من تطبيقات الفيديو. بدون أي تعقيدات إضافية، حقق "InternVideo" أفضل الأداء الحالي على 39 مجموعة بيانات فيديو من مهام متنوعة تشمل اعتراف/اكتشاف حركات الفيديو، وتوافق الفيديو-اللغة، وتطبيقات الفيديو في العالم المفتوح. بشكل خاص، يمكن أن تحصل طرقنا على دقة بنسبة 91.1٪ و77.2٪ في المرتبة الأولى على مقاييس Kinetics-400 وSomething-Something V2 الصعبة، على التوالي. تبين جميع هذه النتائج بشكل فعال جودة "InternVideo" في فهم الفيديو. سيتم إطلاق الكود في https://github.com/OpenGVLab/InternVideo .


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp