منذ 11 أيام

خيط في الوقت المناسب يُنقذ تسعًا: الصغير VLM هو توجيه دقيق لتسريع VLM الكبيرة

Wangbo Zhao, Yizeng Han, Jiasheng Tang, Zhikai Li, Yibing Song, Kai Wang, Zhangyang Wang, Yang You

الملخص

أظهرت نماذج الرؤية واللغة (VLMs) نجاحًا ملحوظًا في مجموعة متنوعة من المهام متعددة الوسائط، إلا أن النماذج الكبيرة من هذه الفئة تواجه تحديات كبيرة من حيث الكفاءة بسبب الحاجة إلى معالجة عدد كبير من الرموز البصرية. يُعدُّ أحد الاتجاهات الواعدة لتسريع عملية الاستنتاج في النماذج الكبيرة هو استخدام معلومات جزئية، مثل خرائط الانتباه من طبقات محددة، لتقييم أهمية الرموز وحذف الرموز الأقل أهمية. ومع ذلك، تكشف دراستنا عن ثلاث رؤى رئيسية: (أ) إن المعلومات الجزئية المتعلقة بالانتباه غير كافية لتحديد الرموز البصرية الحرجة بدقة، مما يؤدي إلى أداء غير مثالي، خاصة عند نسب حفظ الرموز المنخفضة؛ (ب) إن معلومات الانتباه العالمية، مثل خريطة الانتباه المجمعة عبر جميع الطبقات، تُعدّ أكثر فعالية في الحفاظ على الرموز الأساسية وتحافظ على أداء مماثل حتى عند تطبيق تقليم شديد للرموز. ومع ذلك، يتطلب جمع خرائط الانتباه من جميع الطبقات إجراء عملية استنتاج كاملة، ما يزيد من الحمل الحسابي، وبالتالي يُعدّ غير عملي في الطرق الحالية؛ (ج) إن خريطة الانتباه العالمية المجمعة من نموذج صغير لـ VLM تشبه إلى حد كبير خريطة الانتباه العالمية لنموذج كبير، مما يشير إلى بديل فعّال. استنادًا إلى هذه النتائج، نقدّم طريقةً بدون تدريب، تُسمّى SGL (Small VLM Guidance for accelerating Large VLMs). بتفصيل، نستخدم خريطة الانتباه المجمعة من نموذج صغير لتوجيه عملية حذف الرموز البصرية في النموذج الكبير. بالإضافة إلى ذلك، تم تطوير آلية خروج مبكر للاستفادة الكاملة من تنبؤات النموذج الصغير، حيث يتم استدعاء النموذج الكبير ديناميكيًا فقط عند الحاجة، مما يحقق توازنًا متفوّقًا بين الدقة والحساب. أظهرت التقييمات الواسعة عبر 11 معيارًا فعالية وقابلية التعميم لطريقة SGL، حيث تم تحقيق نسبة تقليل تصل إلى 91٪ للرموز البصرية مع الحفاظ على أداء تنافسي.