بحث النموذج العصبي عن المُحفِّز

تزايد حجم نماذج الرؤية بشكل أسي خلال السنوات القليلة الماضية، خاصة بعد登 ظهور نموذج Vision Transformer. وقد دفع هذا التطور إلى تطوير أساليب فعّالة من حيث عدد المعاملات (parameter-efficient tuning)، مثل تعلّم طبقات المُكمّل (adapter layers) أو رموز الدعوة البصرية (visual prompt tokens)، التي تسمح بتدريب جزء صغير جدًا من معاملات النموذج بينما يبقى الجزء الأكبر من المعاملات، المستمد من التدريب المسبق، ثابتًا (مجمّدًا). ومع ذلك، فإن تصميم طريقة تنظيم مناسب ليس أمرًا سهلًا: قد يتطلب الأمر تجربة قائمة طويلة من الخيارات التصميمية، لا سيما أن كل مجموعة بيانات تطبيقية (downstream dataset) غالبًا ما تتطلب تصميمات مخصصة. في هذه الورقة، ننظر إلى الأساليب الحالية لتنظيم المعاملات الفعّالة على أنها "وحدات دعوة" (prompt modules)، ونُقدّم منهجية جديدة تُسمى Neural prOmpt seArcH (NOAH)، التي تتعلّم، لنموذج الرؤية الكبير، التصميم الأمثل لوحدات الدعوة من خلال خوارزمية بحث في البنية العصبية (neural architecture search)، وذلك بشكل خاص لكل مجموعة بيانات تطبيقية. وبإجراء تجارب واسعة على أكثر من 20 مجموعة بيانات للرؤية، نُظهر أن NOAH (i) تتفوّق على وحدات الدعوة الفردية، (ii) تمتلك قدرة جيدة على التعلّم من عدد قليل من الأمثلة (few-shot learning)، و (iii) قابلة للتوافق العام عبر المجالات (domain-generalizable). يمكن الوصول إلى الكود والنماذج عبر الرابط: https://github.com/Davidzhangyuanhan/NOAH.