HyperAIHyperAI
منذ 2 أشهر

LLaVA-MR: مساعد كبير للغة والرؤية لاسترجاع لحظات الفيديو

Lu, Weiheng ; Li, Jian ; Yu, An ; Chang, Ming-Ching ; Ji, Shengpeng ; Xia, Min
LLaVA-MR: مساعد كبير للغة والرؤية لاسترجاع لحظات الفيديو
الملخص

تُستخدم النماذج اللغوية الكبيرة متعددة الوسائط (MLLMs) على نطاق واسع في الإدراك البصري، الفهم والاستدلال. ومع ذلك، لا تزال معالجة مقاطع الفيديو الطويلة واسترجاع اللحظات بدقة تمثل تحديًا بسبب حجم السياق المحدود للنماذج اللغوية الكبيرة (LLMs) واستخراج الإطارات الخشنة. نقترح مساعد اللغة والرؤية الكبير لاسترجاع اللحظات (LLaVA-MR)، الذي يمكّن من استرجاع اللحظات بدقة وتثبيت السياق في مقاطع الفيديو باستخدام MLLMs. يجمع LLaVA-MR بين ترميز الإطارات الكثيفة والزمن (DFTE) لاستخراج الخصائص المكانية-الزمانية، واختيار الإطارات المعلوماتية (IFS) لالتقاط الأنماط البصرية والحركة القصيرة، وضغط الرموز الديناميكي (DTC) لإدارة قيود سياق LLMs. أظهرت التقييمات على مقاييس مثل Charades-STA و QVHighlights أن LLaVA-MR يتفوق على 11 طريقة رائدة في المجال، حيث حقق تحسينًا بنسبة 1.82% في [email protected] و 1.29% في [email protected] على مجموعة بيانات QVHighlights. سيتم إصدار تنفيذنا كرمز مفتوح عند قبوله.

LLaVA-MR: مساعد كبير للغة والرؤية لاسترجاع لحظات الفيديو | أحدث الأوراق البحثية | HyperAI