HyperAIHyperAI

Command Palette

Search for a command to run...

نقل السياق الطويل من اللغة إلى الرؤية

Peiyuan Zhang Kaichen Zhang Bo Li Guangtao Zeng Jingkang Yang Yuanhan Zhang Ziyue Wang Haoran Tan Chunyuan Li Ziwei Liu

الملخص

تقدم سلاسل الفيديو معلومات زمنية قيمة، ولكن النماذج المتعددة الوسائط الكبيرة (LMMs) الحالية تفتقر إلى فهم الفيديوهات الطويلة للغاية. يعالج العديد من الأعمال هذا التحدي عن طريق تقليل عدد الرموز البصرية باستخدام إعادة العينات البصرية. بدلاً من ذلك، في هذه الورقة البحثية، نتناول هذه المشكلة من منظور نموذج اللغة. ببساطة عن طريق توسيع طول السياق للهيكل الأساسي للغة، نمكن النماذج المتعددة الوسائط من فهم كميات أكبر بمراحل من الرموز البصرية دون الحاجة إلى تدريب فيديو. نطلق على هذه الظاهرة نقل السياق الطويل ونقوم بدراسة خصائصها بدقة. لقياس قدرة النماذج المتعددة الوسائط على التعميم إلى سياقات طويلة في مجال الرؤية بشكل فعال، قمنا بتطوير V-NIAH (Visual Needle-In-A-Haystack)، وهو معيار رؤية طويل صوري محض مستوحى من اختبار NIAH لنموذج اللغة. يمكن للمساعد الفيديو الطويل المقترح لدينا (LongVA) معالجة 2000 إطار أو أكثر من 200 ألف رمز بصري دون تعقيدات إضافية. بفضل طول السياق الممتد الخاص به، يحقق LongVA أداءً رائدًا في Video-MME بين النماذج ذات نطاق 7 مليارات عن طريق عينة الإطارات المدخلة بكثافة أكبر. تم توفير مصدر عملنا مفتوحًا على الرابط https://github.com/EvolvingLMMs-Lab/LongVA.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
نقل السياق الطويل من اللغة إلى الرؤية | مستندات | HyperAI