تارسيير: وصفات لتدريب وتقييم نماذج الوصف الفيديو الكبيرة

توليد وصف الفيديو بدقة عالية هو تحدي أساسي في فهم الفيديو. في هذا العمل، نقدم تارسيير، عائلة من نماذج الفيديو-اللغة على نطاق واسع مصممة لتوليد وصف فيديو بجودة عالية. يستخدم تارسيير CLIP-ViT لترميز الإطارات بشكل منفصل ومن ثم يستخدم نموذج لغوي كبير (LLM) لنمذجة العلاقات الزمنية. رغم بساطة هيكله، أظهرنا أن مع إجراء تدريبي مصمم بدقة على مرحلتين، فإن نماذج تارسيير تتمتع بقدرات وصف الفيديو أقوى بكثير من أي نموذج مفتوح المصدر موجود، حيث حققت ميزة بنسبة $+51.4\%$ في التقييم البشري جنبًا إلى جنب مقابل أقوى النماذج. بالإضافة إلى ذلك، فهي تعادل النماذج الحصرية الأكثر تقدمًا، مع تحقيق ميزة بنسبة $+12.3\%$ ضد GPT-4V وميزة سلبية بنسبة $-6.7\%$ ضد Gemini 1.5 Pro. عند تحديثها إلى Tarsier2 من خلال البناء على SigLIP و Qwen2-7B، تتحسن بشكل كبير أكثر مع تحقيق ميزة بنسبة $+4.8\%$ ضد GPT-4o.بخلاف وصف الفيديو، يثبت تارسيير أنه نموذج عام متعدد الاستخدامات، حيث حقق أفضل النتائج المعاصرة في تسعة مقاييس عامة، بما في ذلك الأسئلة المتعددة الخيارات (VQA)، والأسئلة المفتوحة (VQA)، وتسمية الفيديو بدون تعليمات سابقة (zero-shot video captioning). إسهامنا الثاني هو تقديم مقاييس جديد للتقدير -- DREAM-1K (https://tarsier-vlm.github.io/) لتقييم نماذج وصف الفيديو، يتكون من مجموعة بيانات جديدة صعبة تتضمن مقاطع فيديو من مصادر متنوعة ومعقدة مختلفة، بالإضافة إلى طريقة آلية تم تصميمها خصيصًا لتقييم جودة الوصف الدقيق للفيديو.نقوم بتوفير نماذجنا ومقاييس التقييم لدينا بشكل عام عبر الرابط: https://github.com/bytedance/tarsier.