الانكماش والتحفيز السياقي لتصنيف صور قليلة الأمثلة بكفاءة

شهدت السنوات الأخيرة نموًا في التطبيقات التي تركز على المستخدم وتتطلب نقلًا فعّالًا للمعرفة بين المهام في بيئات البيانات المحدودة. ومن الأمثلة على ذلك التخصيص، حيث يتم تكييف نظام مُدرّب مسبقًا من خلال التعلّم على كميات صغيرة من البيانات المُصنّفة التي تخص مستخدمًا معينًا. ويُعدّ هذا السياق مطلوبًا دقة عالية ضمن تعقيد حسابي منخفض، مما يجعل الحدود البيّتية (Pareto frontier) بين الدقة وتكلفة التكييف عاملًا حاسمًا. في هذا البحث، نُحسّن هذه الحدود البيّتية في سياق التصنيف الصوري بخطوات قليلة (few-shot)، بمساهمة رئيسية: كتلة تكييف جديدة تُسمّى "الانضغاط والتحفيز السياقي" (Contextual Squeeze-and-Excitation، أو CaSE)، والتي تقوم بتعديل شبكة عصبية مُدرّبة مسبقًا على مهمة جديدة، لتحسين الأداء بشكل ملحوظ بتمريرة واحدة فقط للبيانات الخاصة بالمستخدم (السياق). ونستخدم كتل CaSE مدرّبة باستخدام التعلّم الميتا (meta-trained) لتكيف شريحة أساسية للشبكة بشكل شرطي، بينما نستخدم إجراءً تدريبيًا دقيقًا (fine-tuning routine) لتكيف الرأس الخطي، ما يشكّل طريقة تُسمّى UpperCaSE. وتُحقّق UpperCaSE أداءً جديدًا على مستوى الحد الأقصى من الدقة مقارنةً بالطرق المُعتمدة على التعلّم الميتا، على 26 مجموعة بيانات ضمن معيار VTAB+MD، وعلى معيار تجريبي واقعي صعب للتخصيص (ORBIT)، مع تقليل الفجوة بينها وبين أفضل الطرق المُعتمدة على التدريب الدقيق، وبتكلفة تكييف أقل بمرات عديدة.