Command Palette
Search for a command to run...
VisionZip: الطول أطول هو أفضل، ولكن ليس ضروريًا في نماذج الرؤية واللغة
Senqiao Yang Yukang Chen Zhuotao Tian Chengyao Wang Jingyao Li Bei Yu Jiaya Jia

الملخص
أحرزت النماذج الرؤية-اللغوية تقدماً حديثاً في الأداء من خلال زيادة طول الرموز البصرية، ما جعلها أطول بكثير من الرموز النصية، ورفع التكاليف الحسابية بشكل كبير. ومع ذلك، لاحظنا أن الرموز البصرية التي تُولَّد بواسطة مُشَفِّرات الرؤية الشهيرة، مثل CLIP وSigLIP، تحتوي على تكرار كبير. ولحل هذه المشكلة، نُقدِّم VisionZip، وهي طريقة بسيطة وفعّالة تُختار فيها مجموعة من الرموز المفيدة لتقديمها إلى نموذج اللغة، مما يقلل من التكرار في الرموز البصرية ويعزز الكفاءة مع الحفاظ على أداء النموذج. يمكن تطبيق VisionZip على نطاق واسع في مهام فهم الصور والفيديوهات، وهي مناسبة جدًا لل диالوجات متعددة الجولات في السياقات الواقعية، حيث تُظهر الطرق السابقة أداءً أقل. تُظهر النتائج التجريبية أن VisionZip تتفوّق على أحدث الطرق السابقة بتحسّن أداء لا يقل عن 5% في معظم الإعدادات. علاوةً على ذلك، تُحسّن طريقتنا بشكل كبير سرعة استنتاج النموذج، حيث تُضاعف وقت التوليد الأولي (prefilling) بمقدار 8 مرات، وتمكّن نموذج LLaVA-Next 13B من الاستنتاج أسرع من نموذج LLaVA-Next 7B مع تحقيق نتائج أفضل. بالإضافة إلى ذلك، نُحلِّل أسباب هذا التكرار، ونُشجّع المجتمع البحثي على التركيز على استخلاص ميزات بصرية أفضل بدلاً من مجرد زيادة طول الرموز. تُتاح كودنا على الرابط: https://github.com/dvlab-research/VisionZip.
مستودعات الكود
المعايير القياسية
| معيار قياسي | المنهجية | المقاييس |
|---|---|---|
| visual-question-answering-on-mm-vet | VisionZip (Retain 128 Tokens, fine-tuning) | GPT-4 score: 32.9 |
| visual-question-answering-on-mm-vet | VisionZip (Retain 64 Tokens, fine-tuning) | GPT-4 score: 30.2 |
| visual-question-answering-on-mm-vet | VisionZip (Retain 128 Tokens) | GPT-4 score: 32.6 |
| visual-question-answering-on-mm-vet | VisionZip (Retain 192 Tokens, fine-tuning) | GPT-4 score: 32.6 |
| visual-question-answering-on-mm-vet | VisionZip (Retain 192 Tokens) | GPT-4 score: 31.7 |
| visual-question-answering-on-mm-vet | VisionZip (Retain 64 Tokens) | GPT-4 score: 31.7 |
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.