منذ 11 أيام

المحاذاة التوزيعية القائمة على المُدخلات للتكيف بين المجالات غير المُراقب

Shuanghao Bai, Min Zhang, Wanqi Zhou, Siteng Huang, Zhirong Luan, Donglin Wang, Badong Chen

الملخص

في الآونة الأخيرة، وعلى الرغم من النجاح غير المسبوق للنماذج البصرية واللغوية الكبيرة المُدرَّبة مسبقًا (VLMs) في مجموعة واسعة من المهام التالية، إلا أن مشكلة التكيّف غير المُراقب بين المجالات (UDA) في البيئة الواقعية لا تزال غير مُستكشفة بشكل كافٍ. لذلك، في هذه الورقة، نُظهر تجريبيًا أولًا أن النماذج VLM المُدرَّبة غير المُراقبة يمكنها تقليل الفرق في التوزيع بين المجال المصدر والهدف بشكل كبير، مما يؤدي إلى تحسين أداء UDA. ومع ذلك، يمثل التصميم المُتقن للـ prompt (التحفيز) تحديًا رئيسيًا عند نشر هذه النماذج مباشرةً في المهام التالية لـ UDA، نظرًا لضرورة محاذاة المعرفة المتعلقة بالمجالين المصدر والهدف، حيث يتأثر أداء UDA بشكل حاد بتمثيل غير مُتَحَدِّدٍ للمجال. ولحل هذه المشكلة، نقترح طريقة جديدة تُسمى "المحاذاة التوزيعية القائمة على التحفيز" (PDA)، والتي تُدمج المعرفة المتعلقة بالمجال في عملية التعلم القائمة على التحفيز. وبشكل محدد، تستخدم PDA نموذجًا ثنائي الفرع، يُعرف بـ "الفرع الأساسي" و"الفرع المُحاذي". يركّز الفرع الأساسي على دمج التمثيلات المرتبطة بالفئات داخل التحفيزات، لضمان التمييز بين الفئات المختلفة. أما الفرع المُحاذي، فيهدف إلى تقليل الفرق بين المجالات بشكل أكبر، حيث نُنشئ مخازن ميزات لكل من المجال المصدر والهدف، ونُقدّم تقنية تسمى "ضبط الميزات المُوجهة بالصورة" (IFT)، التي تُجبر المدخلات على التركيز على مخازن الميزات، مما يُسهم في دمج ميزات ذاتية التحسين وميزات عبر المجالات داخل النموذج بشكل فعّال. وبهذا الشكل، يمكن للفرعين التفاعل وتعزيز بعضهما البعض، مما يُعزز من قدرة النماذج VLM على التكيّف مع مهام UDA. أجرينا تجارب واسعة على ثلاث معايير معيارية، وأظهرت النتائج أن طريقة PDA المقترحة تحقق أداءً متقدمًا على مستوى الحد الأقصى من الأداء الحالي (state-of-the-art). يمكن الوصول إلى الكود عبر الرابط التالي: https://github.com/BaiShuanghao/Prompt-based-Distribution-Alignment.