HyperAIHyperAI

Command Palette

Search for a command to run...

LLaVA-MR: مساعد كبير للغة والرؤية لاسترجاع لحظات الفيديو

Weiheng Lu Jian Li* An Yu Ming-Ching Chang Shengpeng Ji Min Xia

الملخص

تُستخدم النماذج اللغوية الكبيرة متعددة الوسائط (MLLMs) على نطاق واسع في الإدراك البصري، الفهم والاستدلال. ومع ذلك، لا تزال معالجة مقاطع الفيديو الطويلة واسترجاع اللحظات بدقة تمثل تحديًا بسبب حجم السياق المحدود للنماذج اللغوية الكبيرة (LLMs) واستخراج الإطارات الخشنة. نقترح مساعد اللغة والرؤية الكبير لاسترجاع اللحظات (LLaVA-MR)، الذي يمكّن من استرجاع اللحظات بدقة وتثبيت السياق في مقاطع الفيديو باستخدام MLLMs. يجمع LLaVA-MR بين ترميز الإطارات الكثيفة والزمن (DFTE) لاستخراج الخصائص المكانية-الزمانية، واختيار الإطارات المعلوماتية (IFS) لالتقاط الأنماط البصرية والحركة القصيرة، وضغط الرموز الديناميكي (DTC) لإدارة قيود سياق LLMs. أظهرت التقييمات على مقاييس مثل Charades-STA و QVHighlights أن LLaVA-MR يتفوق على 11 طريقة رائدة في المجال، حيث حقق تحسينًا بنسبة 1.82% في [email protected] و 1.29% في [email protected] على مجموعة بيانات QVHighlights. سيتم إصدار تنفيذنا كرمز مفتوح عند قبوله.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp