HyperAIHyperAI

Command Palette

Search for a command to run...

خيط في الوقت المناسب يُنقذ تسعًا: الصغير VLM هو توجيه دقيق لتسريع VLM الكبيرة

Wangbo Zhao Yizeng Han Jiasheng Tang Zhikai Li Yibing Song Kai Wang Zhangyang Wang Yang You

الملخص

أظهرت نماذج الرؤية واللغة (VLMs) نجاحًا ملحوظًا في مجموعة متنوعة من المهام متعددة الوسائط، إلا أن النماذج الكبيرة من هذه الفئة تواجه تحديات كبيرة من حيث الكفاءة بسبب الحاجة إلى معالجة عدد كبير من الرموز البصرية. يُعدُّ أحد الاتجاهات الواعدة لتسريع عملية الاستنتاج في النماذج الكبيرة هو استخدام معلومات جزئية، مثل خرائط الانتباه من طبقات محددة، لتقييم أهمية الرموز وحذف الرموز الأقل أهمية. ومع ذلك، تكشف دراستنا عن ثلاث رؤى رئيسية: (أ) إن المعلومات الجزئية المتعلقة بالانتباه غير كافية لتحديد الرموز البصرية الحرجة بدقة، مما يؤدي إلى أداء غير مثالي، خاصة عند نسب حفظ الرموز المنخفضة؛ (ب) إن معلومات الانتباه العالمية، مثل خريطة الانتباه المجمعة عبر جميع الطبقات، تُعدّ أكثر فعالية في الحفاظ على الرموز الأساسية وتحافظ على أداء مماثل حتى عند تطبيق تقليم شديد للرموز. ومع ذلك، يتطلب جمع خرائط الانتباه من جميع الطبقات إجراء عملية استنتاج كاملة، ما يزيد من الحمل الحسابي، وبالتالي يُعدّ غير عملي في الطرق الحالية؛ (ج) إن خريطة الانتباه العالمية المجمعة من نموذج صغير لـ VLM تشبه إلى حد كبير خريطة الانتباه العالمية لنموذج كبير، مما يشير إلى بديل فعّال. استنادًا إلى هذه النتائج، نقدّم طريقةً بدون تدريب، تُسمّى SGL (Small VLM Guidance for accelerating Large VLMs). بتفصيل، نستخدم خريطة الانتباه المجمعة من نموذج صغير لتوجيه عملية حذف الرموز البصرية في النموذج الكبير. بالإضافة إلى ذلك، تم تطوير آلية خروج مبكر للاستفادة الكاملة من تنبؤات النموذج الصغير، حيث يتم استدعاء النموذج الكبير ديناميكيًا فقط عند الحاجة، مما يحقق توازنًا متفوّقًا بين الدقة والحساب. أظهرت التقييمات الواسعة عبر 11 معيارًا فعالية وقابلية التعميم لطريقة SGL، حيث تم تحقيق نسبة تقليل تصل إلى 91٪ للرموز البصرية مع الحفاظ على أداء تنافسي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp