منذ 8 أشهر

الملخص

بناءً على التقدم المحرز في نماذج اللغة، قدّمت النماذج المتعددة الوسائط الكبيرة (LMMs) تحسينات كبيرة في فهم الفيديو. بينما تستفيد النماذج الحالية للفيديو LMMs من نماذج اللغة الكبيرة المتقدمة (LLMs)، فإنها تعتمد إما على مُشفِّرات الصور أو مُشفِّرات الفيديو لمعالجة المدخلات البصرية، وكل منها له قيوده الخاصة. تتميز مُشفِّرات الصور بقدرتها على التقاط التفاصيل المكانية الغنية من سلاسل الإطارات ولكنها تفتقر إلى السياق الزمني الصريح، وهو ما يمكن أن يكون مهمًا في مقاطع الفيديو ذات التتابعات الحركية المعقدة. من ناحية أخرى، توفر مُشفِّرات الفيديو السياق الزمني ولكنها غالبًا ما تكون مقيدة بالقيود الحسابية التي تقود إلى معالجة إطارات متفرقة بدرجة دقة أقل، مما يؤدي إلى تقليل فهم السياق والتفاصيل المكانية. بناءً على ذلك، نقدم VideoGPT+، الذي يجمع بين الفوائد المكملة لمُشفِّر الصورة (للفهم المكاني التفصيلي) ومُشفِّر الفيديو (لنمذجة السياق الزمني العالمي). يقوم النموذج بمعالجة مقاطع الفيديو بتقسيمها إلى أجزاء أصغر وتطبيق استراتيجية تجميع متكيفة على الخصائص المستخرجة بواسطة كل من مُشفِّري الصورة والفيديو. يظهر تصميمنا تحسينات في الأداء عبر العديد من مقاييس الفيديو، بما في ذلك VCGBench وMVBench والإجابة على الأسئلة دون الحاجة للتدريب عليها (Zero-shot question-answering). بالإضافة إلى ذلك، طورنا مجموعة تعليمات فيديو تحتوي على 112 ألف تعليمة باستخدام خط أنابيب تسمية شبه آلية جديدة، مما يعزز أداء النموذج بشكل أكبر. كما وأننا لنقيم النماذج المتعددة الوسائط للفيديو بشكل شامل، نقدم VCGBench-Diverse، التي تغطي 18 فئة عريضة من مقاطع الفيديو مثل نمط الحياة والرياضة والعلوم والألعاب والمراقبة. يقيس هذا المقاس العاملي للأسئلة والأجوبة البالغ عددها 4,354 مدى قدرة النماذج LMMs الحالية على التعميم في كتابة العناوين الكثيفة للفيديوهات والفَهم المكاني والزماني والاستدلال المعقد، مما يضمن تقييمًا شاملًا عبر أنواع وأوضاع مختلفة من مقاطع الفيديو.الرمز البرمجي: https://github.com/mbzuai-oryx/VideoGPT-plus.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Muhammad Maaz Hanoona Rasheed Salman Khan Fahad Shahbaz Khan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Muhammad Maaz Hanoona Rasheed Salman Khan Fahad Shahbaz Khan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Muhammad Maaz Hanoona Rasheed Salman Khan Fahad Shahbaz Khan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

VideoGPT+: دمج مُشفِّرات الصور والفيديوهات لتحسين فهم الفيديو

Muhammad Maaz Hanoona Rasheed Salman Khan Fahad Shahbaz Khan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

VideoGPT+: دمج مُشفِّرات الصور والفيديوهات لتحسين فهم الفيديو

Muhammad Maaz Hanoona Rasheed Salman Khan Fahad Shahbaz Khan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

VideoGPT+: دمج مُشفِّرات الصور والفيديوهات لتحسين فهم الفيديو

Muhammad Maaz Hanoona Rasheed Salman Khan Fahad Shahbaz Khan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters