HyperAIHyperAI

Command Palette

Search for a command to run...

LongVU: الضغط المكاني والزماني التكيفي لفهم اللغة في الفيديوهات الطويلة

الملخص

قد أظهرت نماذج اللغات الكبيرة متعددة الوسائط (MLLMs) تقدماً واعداً في فهم وتحليل محتوى الفيديو. ومع ذلك، لا يزال معالجة مقاطع الفيديو الطويلة تحدياً كبيراً بسبب حجم السياق المحدود للنماذج اللغوية الكبيرة (LLMs). لمعالجة هذا القيد، نقترح LongVU، وهو آلية ضغط مكيفة زمانياً ومكانيًا تقلل من عدد رموز الفيديو مع الحفاظ على التفاصيل البصرية للفيديوهات الطويلة. تعتمد فكرة LongVU على الاستفادة من الاستعلامات عبر الوسائط والارتباطات بين الإطارات لخفض الأحجام الزمانية والمكانية الزائدة في الفيديوهات بشكل متكيف. بوجه خاص، نستفيد من خصائص DINOv2 لإزالة الإطارات الزائدة التي تظهر درجة عالية من التشابه. ثم نستخدم استعلام عبر الوسائط موجه بالنص لتخفيض الخصائص الإطارية بشكل انتقائي. بالإضافة إلى ذلك، نقوم بخفض الرموز المكانية عبر الإطارات بناءً على ارتباطاتها الزمنية. تمكننا استراتيجيتنا للضغط المكيف من معالجة عدد كبير من الإطارات مع فقدان قليل جداً للمعلومات البصرية ضمن طول السياق المعطى. كما أن LongVU يتفوق باستمرار على الطرق الموجودة في مجموعة متنوعة من مقاييس فهم الفيديو، خاصة في مهمات فهم الفيديوهات التي تستغرق ساعة مثل VideoMME و MLVU. وحتى عند استخدام نموذج لغوي كبير خفيف الوزن، فإن LongVU يتوسع بشكل فعال إلى حجم أصغر مع أداء فهم الفيديو الرائد عالميًا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp