نقل السياق الطويل من اللغة إلى الرؤية

تقدم سلاسل الفيديو معلومات زمنية قيمة، ولكن النماذج المتعددة الوسائط الكبيرة (LMMs) الحالية تفتقر إلى فهم الفيديوهات الطويلة للغاية. يعالج العديد من الأعمال هذا التحدي عن طريق تقليل عدد الرموز البصرية باستخدام إعادة العينات البصرية. بدلاً من ذلك، في هذه الورقة البحثية، نتناول هذه المشكلة من منظور نموذج اللغة. ببساطة عن طريق توسيع طول السياق للهيكل الأساسي للغة، نمكن النماذج المتعددة الوسائط من فهم كميات أكبر بمراحل من الرموز البصرية دون الحاجة إلى تدريب فيديو. نطلق على هذه الظاهرة نقل السياق الطويل ونقوم بدراسة خصائصها بدقة. لقياس قدرة النماذج المتعددة الوسائط على التعميم إلى سياقات طويلة في مجال الرؤية بشكل فعال، قمنا بتطوير V-NIAH (Visual Needle-In-A-Haystack)، وهو معيار رؤية طويل صوري محض مستوحى من اختبار NIAH لنموذج اللغة. يمكن للمساعد الفيديو الطويل المقترح لدينا (LongVA) معالجة 2000 إطار أو أكثر من 200 ألف رمز بصري دون تعقيدات إضافية. بفضل طول السياق الممتد الخاص به، يحقق LongVA أداءً رائدًا في Video-MME بين النماذج ذات نطاق 7 مليارات عن طريق عينة الإطارات المدخلة بكثافة أكبر. تم توفير مصدر عملنا مفتوحًا على الرابط https://github.com/EvolvingLMMs-Lab/LongVA.