HyperAIHyperAI

Command Palette

Search for a command to run...

التحفيز الجيد يستحق ملايين المعلمات: تعلم مبني على التحفيز منخفض الموارد للنماذج البصرية-اللغوية

Woojeong Jin Yu Cheng Yelong Shen Weizhu Chen Xiang Ren

الملخص

يمكن للنماذج الكبيرة المُدرَّبة مسبقًا في مجال الرؤية واللغة (VL) تعلُّم مهمة جديدة باستخدام عدد قليل جدًا من الأمثلة، والتفوُّق في الأداء على مهام جديدة دون الحاجة إلى التدريب الدقيق (fine-tuning). ومع ذلك، فإن هذه النماذج تُعدّ صعبة التنفيذ في التطبيقات الواقعية بسبب حجمها الهائل وغير العملي وسرعة استنتاجها البطيئة. ولحل هذه المشكلة، ندرس تعلُّم المهام الخاصة بـ VL القائمة على المحفِّزات (prompts) في بيئة ذات موارد محدودة، باستخدام طريقة مقترحة تُسمَّى FewVLM، وهي أصغر نسبيًا مقارنةً بالنماذج القائمة على التعلم بعينات قليلة الحديثة. بالنسبة لـ FewVLM، نُدرِّب نموذجًا مُحَوِّلًا تسلسليًا (sequence-to-sequence transformer) مسبقًا باستخدام نموذج التوليد المُسبق للغة (PrefixLM) ونموذج التوليد المُقنّع للغة (MaskedLM). علاوةً على ذلك، نحلِّل تأثير المحفِّزات المتنوعة على المهام ذات العينات القليلة. أظهرت النتائج التجريبية على مهمة VQA أن FewVLM التي تعتمد على التعلُّم القائم على المحفِّزات تتفوَّق على النموذج المُجمَّد (Frozen) الذي يُعدّ 31 مرة أكبر من FewVLM بنسبة 18.2 نقطة مئوية، وتحقق نتائج مماثلة لنموذج أكبر بـ 246 مرة، وهو نموذج PICa. في تحليلنا، لاحظنا أن: (1) تؤثر المحفِّزات بشكل كبير على الأداء في السياق الصفر-نقطة (zero-shot)، ولكنها تؤثر بشكل طفيف على الأداء في السياق القائم على العينات القليلة (few-shot)، (2) تتعلَّم النماذج التي تستخدم محفِّزات مشوَّشة (noisy prompts) بنفس السرعة التي تتعلَّم بها النماذج التي تستخدم محفِّزات مُصمَّمة يدويًا، عند توفر بيانات تدريب أكبر، و (3) يُسهم نموذج MaskedLM في تحسين أداء مهام VQA، في حين يعزِّز نموذج PrefixLM أداء مهام التسمية (captioning). يمكن الوصول إلى الشيفرة المصدرية الخاصة بنا بشكل عام عبر الرابط التالي: \url{https://github.com/woojeongjin/FewVLM}


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التحفيز الجيد يستحق ملايين المعلمات: تعلم مبني على التحفيز منخفض الموارد للنماذج البصرية-اللغوية | مستندات | HyperAI