Tarsier2: تقدمة نماذج الرؤية واللغة الكبيرة من وصف الفيديو التفصيلي إلى فهم الفيديو الشامل

نقدم Tarsier2، وهو نموذج بصرية-لغوي كبير متطور (Large Vision-Language Model - LVLM) مصمم لتوليد وصف فيديو مفصل ودقيق، مع إظهار قدرات فهم الفيديو العامة المتفوقة. يحقق Tarsier2 تقدماً كبيراً من خلال ثلاث تحسينات رئيسية: (1) زيادة بيانات التدريب الأولي من 11 مليون إلى 40 مليون زوج فيديو-نص، مما يثري الكمية والتنوع؛ (2) أداء التوافق الزمني الدقيق أثناء التدريب النظري الدقيق؛ (3) استخدام العينات القائمة على النموذج لبناء البيانات المفضلة تلقائياً وتطبيق تدريب DPO للتحسين. تظهر التجارب الواسعة أن Tarsier2-7B يتفوق باستمرار على النماذج الخاصة الرائدة، بما في ذلك GPT-4o و Gemini 1.5 Pro، في مهام وصف الفيديو المفصلة. على مقاييس DREAM-1K، يحسن Tarsier2-7B مؤشر F1 بنسبة 2.8% مقارنة بـ GPT-4o وبنسبة 5.8% مقارنة بـ Gemini-1.5-Pro. وفي التقييمات البشرية جنبًا إلى جنب، يظهر Tarsier2-7B أفضلية أداء بنسبة +8.6% مقارنة بـ GPT-4o وبنسبة +24.9% مقارنة بـ Gemini-1.5-Pro. كما يحدد Tarsier2-7B نتائج جديدة رائدة في 15 مقاييس عامة، تشمل مهام مثل الإجابة على أسئلة الفيديو، وتثبيت الفيديو، واختبار الهلوسة، والإجابة على الأسئلة الجسدية، مما يثبت متانته ومرونته كنموذج بصرية-لغوي عام شامل.