InternVideo: نماذج أسس الفيديو العامة من خلال التعلم الجيني والتمييزي

أظهرت نماذج الأساس مؤخرًا أداءً ممتازًا في مجموعة متنوعة من المهام الثانوية في رؤية الحاسوب. ومع ذلك، فإن معظم النماذج الحالية لرؤية الأساس تركز ببساطة على التدريب الأولي والتكيف على مستوى الصورة، مما يحد من قدرتها على فهم المهام المعقدة والديناميكية على مستوى الفيديو. لسد هذه الفجوة، نقدم نماذج أساس الفيديو العامة "InternVideo"، والتي تستفيد من التعلم الذاتي الجينراتي (الإنتاجي) والتميزي (التمييز) للفيديو. تحديدًا، يستكشف "InternVideo" بكفاءة نمذجة الفيديو المقنعة وتعلم التباين بين الفيديو واللغة كأهداف للتدريب الأولي، ويقوم بتنسيق اختياري لممثلات الفيديو لهذه الإطارين المكملين بطريقة قابلة للتعلم لتعزيز مجموعة متنوعة من تطبيقات الفيديو. بدون أي تعقيدات إضافية، حقق "InternVideo" أفضل الأداء الحالي على 39 مجموعة بيانات فيديو من مهام متنوعة تشمل اعتراف/اكتشاف حركات الفيديو، وتوافق الفيديو-اللغة، وتطبيقات الفيديو في العالم المفتوح. بشكل خاص، يمكن أن تحصل طرقنا على دقة بنسبة 91.1٪ و77.2٪ في المرتبة الأولى على مقاييس Kinetics-400 وSomething-Something V2 الصعبة، على التوالي. تبين جميع هذه النتائج بشكل فعال جودة "InternVideo" في فهم الفيديو. سيتم إطلاق الكود في https://github.com/OpenGVLab/InternVideo .