منذ 8 أشهر

الملخص

تُستخدم النماذج اللغوية الكبيرة متعددة الوسائط (MLLMs) على نطاق واسع في الإدراك البصري، الفهم والاستدلال. ومع ذلك، لا تزال معالجة مقاطع الفيديو الطويلة واسترجاع اللحظات بدقة تمثل تحديًا بسبب حجم السياق المحدود للنماذج اللغوية الكبيرة (LLMs) واستخراج الإطارات الخشنة. نقترح مساعد اللغة والرؤية الكبير لاسترجاع اللحظات (LLaVA-MR)، الذي يمكّن من استرجاع اللحظات بدقة وتثبيت السياق في مقاطع الفيديو باستخدام MLLMs. يجمع LLaVA-MR بين ترميز الإطارات الكثيفة والزمن (DFTE) لاستخراج الخصائص المكانية-الزمانية، واختيار الإطارات المعلوماتية (IFS) لالتقاط الأنماط البصرية والحركة القصيرة، وضغط الرموز الديناميكي (DTC) لإدارة قيود سياق LLMs. أظهرت التقييمات على مقاييس مثل Charades-STA و QVHighlights أن LLaVA-MR يتفوق على 11 طريقة رائدة في المجال، حيث حقق تحسينًا بنسبة 1.82% في [email protected] و 1.29% في [email protected] على مجموعة بيانات QVHighlights. سيتم إصدار تنفيذنا كرمز مفتوح عند قبوله.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار