HyperAIHyperAI
منذ 2 أشهر

LongVU: الضغط المكاني والزماني التكيفي لفهم اللغة في الفيديوهات الطويلة

Xiaoqian Shen, Yunyang Xiong, Changsheng Zhao, Lemeng Wu, Jun Chen, Chenchen Zhu, Zechun Liu, Fanyi Xiao, Balakrishnan Varadarajan, Florian Bordes, Zhuang Liu, Hu Xu, Hyunwoo J. Kim, Bilge Soran, Raghuraman Krishnamoorthi, Mohamed Elhoseiny, Vikas Chandra
LongVU: الضغط المكاني والزماني التكيفي لفهم اللغة في الفيديوهات الطويلة
الملخص

قد أظهرت نماذج اللغات الكبيرة متعددة الوسائط (MLLMs) تقدماً واعداً في فهم وتحليل محتوى الفيديو. ومع ذلك، لا يزال معالجة مقاطع الفيديو الطويلة تحدياً كبيراً بسبب حجم السياق المحدود للنماذج اللغوية الكبيرة (LLMs). لمعالجة هذا القيد، نقترح LongVU، وهو آلية ضغط مكيفة زمانياً ومكانيًا تقلل من عدد رموز الفيديو مع الحفاظ على التفاصيل البصرية للفيديوهات الطويلة. تعتمد فكرة LongVU على الاستفادة من الاستعلامات عبر الوسائط والارتباطات بين الإطارات لخفض الأحجام الزمانية والمكانية الزائدة في الفيديوهات بشكل متكيف. بوجه خاص، نستفيد من خصائص DINOv2 لإزالة الإطارات الزائدة التي تظهر درجة عالية من التشابه. ثم نستخدم استعلام عبر الوسائط موجه بالنص لتخفيض الخصائص الإطارية بشكل انتقائي. بالإضافة إلى ذلك، نقوم بخفض الرموز المكانية عبر الإطارات بناءً على ارتباطاتها الزمنية. تمكننا استراتيجيتنا للضغط المكيف من معالجة عدد كبير من الإطارات مع فقدان قليل جداً للمعلومات البصرية ضمن طول السياق المعطى. كما أن LongVU يتفوق باستمرار على الطرق الموجودة في مجموعة متنوعة من مقاييس فهم الفيديو، خاصة في مهمات فهم الفيديوهات التي تستغرق ساعة مثل VideoMME و MLVU. وحتى عند استخدام نموذج لغوي كبير خفيف الوزن، فإن LongVU يتوسع بشكل فعال إلى حجم أصغر مع أداء فهم الفيديو الرائد عالميًا.

LongVU: الضغط المكاني والزماني التكيفي لفهم اللغة في الفيديوهات الطويلة | أحدث الأوراق البحثية | HyperAI