HyperAIHyperAI

Command Palette

Search for a command to run...

ما وراء القوة الفردية: تجميعات مخصصة للنماذج البصرية-اللغوية الشاملة

Zhihe Lu Jiawang Bai Xin Li Zeyu Xiao Xinchao Wang

الملخص

تمثّل عملية التخصيص الدقيق للنماذج البصرية-اللغوية المُدرّبة مسبقًا (VLMs)، مثل CLIP، من أجل التعميم في البيئة المفتوحة، اتجاهًا متزايد الشعبية بفضل قيمتها العملية. ومع ذلك، تظل تطورات الأداء محدودة عند الاعتماد فقط على تصميمات خوارزمية معقدة لنموذج واحد، حتى لو كان هذا النموذج يُظهر أداءً قويًا، مثل CLIP-ViT-B/16. في هذه الورقة، لأول مرة، نستكشف القدرة التعاونية لاستخدام نماذج VLMs أضعف بكثير لتعزيز قدرة النموذج الفردي القوي على التعميم. تُثري النتائج الإيجابية هذا التوجه، وتحفّزنا على معالجة مشكلة التعميم من منظور جديد، ألا وهو تجميع النماذج المُدرّبة مسبقًا VLMs. نقدّم ثلاث استراتيجيات مخصصة لتجميع النماذج، كل منها مصمم خصيصًا لسياق معين. أولاً، نقدّم استراتيجية التجميع الصفرية (zero-shot ensemble)، التي تُعدّل تلقائيًا قيم(logits) النماذج المختلفة بناءً على درجة ثقتها، عند توفر فقط نماذج VLMs المُدرّبة مسبقًا. ثانياً، في السياقات التي تتوفر فيها عينات قليلة إضافية (few-shot)، نقترح استراتيجية التجميع دون تدريب أو تعديل (training-free and tuning ensemble)، التي تُقدّم مرونة بناءً على توفر الموارد الحاسوبية. تم تقييم الاستراتيجيات المُقترحة في مهام التعميم الصفرية، والتعميم من الأساس إلى الجديد (base-to-new)، والتعميم عبر المجموعات البيانات، حيث حققت نتائج جديدة متفوقة على أحدث النماذج المُحققة (state-of-the-art). وبشكل ملحوظ، تمثل هذه الدراسة خطوة أولية نحو تحسين أداء التعميم للنماذج VLMs من خلال التجميع. يُمكن الاطلاع على الشيفرة المصدرية على الرابط التالي: https://github.com/zhiheLu/Ensemble_VLM.git.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp