HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 3 أشهر

VisionZip: الطول أطول هو أفضل، ولكن ليس ضروريًا في نماذج الرؤية واللغة

Senqiao Yang Yukang Chen Zhuotao Tian Chengyao Wang Jingyao Li Bei Yu Jiaya Jia

VisionZip: الطول أطول هو أفضل، ولكن ليس ضروريًا في نماذج الرؤية واللغة

الملخص

أحرزت النماذج الرؤية-اللغوية تقدماً حديثاً في الأداء من خلال زيادة طول الرموز البصرية، ما جعلها أطول بكثير من الرموز النصية، ورفع التكاليف الحسابية بشكل كبير. ومع ذلك، لاحظنا أن الرموز البصرية التي تُولَّد بواسطة مُشَفِّرات الرؤية الشهيرة، مثل CLIP وSigLIP، تحتوي على تكرار كبير. ولحل هذه المشكلة، نُقدِّم VisionZip، وهي طريقة بسيطة وفعّالة تُختار فيها مجموعة من الرموز المفيدة لتقديمها إلى نموذج اللغة، مما يقلل من التكرار في الرموز البصرية ويعزز الكفاءة مع الحفاظ على أداء النموذج. يمكن تطبيق VisionZip على نطاق واسع في مهام فهم الصور والفيديوهات، وهي مناسبة جدًا لل диالوجات متعددة الجولات في السياقات الواقعية، حيث تُظهر الطرق السابقة أداءً أقل. تُظهر النتائج التجريبية أن VisionZip تتفوّق على أحدث الطرق السابقة بتحسّن أداء لا يقل عن 5% في معظم الإعدادات. علاوةً على ذلك، تُحسّن طريقتنا بشكل كبير سرعة استنتاج النموذج، حيث تُضاعف وقت التوليد الأولي (prefilling) بمقدار 8 مرات، وتمكّن نموذج LLaVA-Next 13B من الاستنتاج أسرع من نموذج LLaVA-Next 7B مع تحقيق نتائج أفضل. بالإضافة إلى ذلك، نُحلِّل أسباب هذا التكرار، ونُشجّع المجتمع البحثي على التركيز على استخلاص ميزات بصرية أفضل بدلاً من مجرد زيادة طول الرموز. تُتاح كودنا على الرابط: https://github.com/dvlab-research/VisionZip.

مستودعات الكود

dvlab-research/visionzip
رسمي
pytorch
مذكور في GitHub

المعايير القياسية

معيار قياسيالمنهجيةالمقاييس
visual-question-answering-on-mm-vetVisionZip (Retain 128 Tokens, fine-tuning)
GPT-4 score: 32.9
visual-question-answering-on-mm-vetVisionZip (Retain 64 Tokens, fine-tuning)
GPT-4 score: 30.2
visual-question-answering-on-mm-vetVisionZip (Retain 128 Tokens)
GPT-4 score: 32.6
visual-question-answering-on-mm-vetVisionZip (Retain 192 Tokens, fine-tuning)
GPT-4 score: 32.6
visual-question-answering-on-mm-vetVisionZip (Retain 192 Tokens)
GPT-4 score: 31.7
visual-question-answering-on-mm-vetVisionZip (Retain 64 Tokens)
GPT-4 score: 31.7

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
VisionZip: الطول أطول هو أفضل، ولكن ليس ضروريًا في نماذج الرؤية واللغة | الأوراق البحثية | HyperAI