HyperAIHyperAI
منذ 2 أشهر

VideoGPT+: دمج مُشفِّرات الصور والفيديوهات لتحسين فهم الفيديو

Maaz, Muhammad ; Rasheed, Hanoona ; Khan, Salman ; Khan, Fahad
VideoGPT+: دمج مُشفِّرات الصور والفيديوهات لتحسين فهم الفيديو
الملخص

بناءً على التقدم المحرز في نماذج اللغة، قدّمت النماذج المتعددة الوسائط الكبيرة (LMMs) تحسينات كبيرة في فهم الفيديو. بينما تستفيد النماذج الحالية للفيديو LMMs من نماذج اللغة الكبيرة المتقدمة (LLMs)، فإنها تعتمد إما على مُشفِّرات الصور أو مُشفِّرات الفيديو لمعالجة المدخلات البصرية، وكل منها له قيوده الخاصة. تتميز مُشفِّرات الصور بقدرتها على التقاط التفاصيل المكانية الغنية من سلاسل الإطارات ولكنها تفتقر إلى السياق الزمني الصريح، وهو ما يمكن أن يكون مهمًا في مقاطع الفيديو ذات التتابعات الحركية المعقدة. من ناحية أخرى، توفر مُشفِّرات الفيديو السياق الزمني ولكنها غالبًا ما تكون مقيدة بالقيود الحسابية التي تقود إلى معالجة إطارات متفرقة بدرجة دقة أقل، مما يؤدي إلى تقليل فهم السياق والتفاصيل المكانية. بناءً على ذلك، نقدم VideoGPT+، الذي يجمع بين الفوائد المكملة لمُشفِّر الصورة (للفهم المكاني التفصيلي) ومُشفِّر الفيديو (لنمذجة السياق الزمني العالمي). يقوم النموذج بمعالجة مقاطع الفيديو بتقسيمها إلى أجزاء أصغر وتطبيق استراتيجية تجميع متكيفة على الخصائص المستخرجة بواسطة كل من مُشفِّري الصورة والفيديو. يظهر تصميمنا تحسينات في الأداء عبر العديد من مقاييس الفيديو، بما في ذلك VCGBench وMVBench والإجابة على الأسئلة دون الحاجة للتدريب عليها (Zero-shot question-answering). بالإضافة إلى ذلك، طورنا مجموعة تعليمات فيديو تحتوي على 112 ألف تعليمة باستخدام خط أنابيب تسمية شبه آلية جديدة، مما يعزز أداء النموذج بشكل أكبر. كما وأننا لنقيم النماذج المتعددة الوسائط للفيديو بشكل شامل، نقدم VCGBench-Diverse، التي تغطي 18 فئة عريضة من مقاطع الفيديو مثل نمط الحياة والرياضة والعلوم والألعاب والمراقبة. يقيس هذا المقاس العاملي للأسئلة والأجوبة البالغ عددها 4,354 مدى قدرة النماذج LMMs الحالية على التعميم في كتابة العناوين الكثيفة للفيديوهات والفَهم المكاني والزماني والاستدلال المعقد، مما يضمن تقييمًا شاملًا عبر أنواع وأوضاع مختلفة من مقاطع الفيديو.الرمز البرمجي: https://github.com/mbzuai-oryx/VideoGPT-plus.

VideoGPT+: دمج مُشفِّرات الصور والفيديوهات لتحسين فهم الفيديو | أحدث الأوراق البحثية | HyperAI