التنميط المرئي للنُّسَك في التكييف حسب المجال عند وقت الاختبار

يجب أن تكون النماذج قادرة على التكيف مع البيانات غير المرئية أثناء مرحلة الاختبار، لتجنب الانخفاض في الأداء الناتج عن التحولات في التوزيع التي لا مفر منها في السيناريوهات الواقعية للاعتماد. في هذه الدراسة، نعالج مشكلة التكيف في وقت الاختبار (TTA) العملية ولكن الصعبة، حيث تتكيف النموذج مع المجال المستهدف دون الوصول إلى البيانات المصدرية. نقترح وصفة بسيطة تُسمى \textit{الضبط الفعّال للنماذج (DePT)}، والتي تتضمن عنصرين رئيسيين. أولاً، يُدمج DePT نماذج بصرية (visual prompts) في نموذج Transformer البصري، ويُعدّل فقط هذه النماذج المُعدّة مسبقًا من البيانات المصدرية أثناء التكيف. وجدنا أن هذا النهج المُعدّل بكفاءة عالية في التحكم بالمعاملات يمكنه التكيف بكفاءة مع المجال المستهدف دون التعرض للانحياز المفرط إلى الضوضاء في دالة التعلم. ثانيًا، يُعزز DePT تمثيل البيانات المصدرية إلى المجال المستهدف من خلال تسمية مزيفة مباشرة تعتمد على مخزن الذاكرة. كما يتم تحسين تقليل ذاتي هرمي مصمم خصيصًا للنماذج البصرية بشكل مشترك لتقليل تراكم الأخطاء أثناء التدريب الذاتي. وباستخدام عدد أقل بكثير من المعاملات القابلة للتعديل، تُظهر DePT أداءً متقدمًا جدًا على أهم معايير التكيف مثل VisDA-C وImageNet-C وDomainNet-126، إلى جانب كفاءة عالية في استخدام البيانات، أي التكيف باستخدام 1\% أو 10\% فقط من البيانات دون انخفاض كبير في الأداء مقارنةً باستخدام 100\% من البيانات. بالإضافة إلى ذلك، تُظهر DePT مرونة عالية، مما يسمح بتوسيع نطاقها لتطبيقات تكيف في الوقت الفعلي أو متعددة المصادر.