HyperAIHyperAI
منذ 8 أيام

التكيف غير المراقب للنطاق باستخدام التدريب المسبق للرؤية واللغة

{Wenlve Zhou and Zhiheng Zhou}
الملخص

يُعالج هذا البحث تحديين جوهريين في التكيف بين المجالات غير المراقبة (UDA)، مع التركيز على استغلال قوة نماذج التدريب المسبق البصري-اللغوي (VLP). أولاً، اعتمدت UDA بشكل رئيسي على نماذج مُدرّبة مسبقًا باستخدام ImageNet. ومع ذلك، لا تزال إمكانات نماذج VLP في سياق UDA غير مستغلة بشكل كافٍ. تمتلك نماذج VLP تمثيلات غنية تُعدّ واعدًا كبيرًا لتحسين مهام UDA. ولحل هذه المشكلة، نقترح طريقة جديدة تُسمى "نقل المعرفة عبر الوسائط المتقاطعة" (CMKD)، والتي تستخدم نماذج VLP كنماذج مُعلّمة (Teachers) لتوجيه عملية التعلم في المجال الهدف، مما يؤدي إلى أداء متميز على مستوى الحد الأقصى في المجالات الحالية. ثانيًا، تتضمن النماذج الحالية لـ UDA تدريب نماذج منفصلة لكل مهمة، مما يؤدي إلى عبء تخزين كبير، ويصبح نشر النموذج غير عملي مع زيادة عدد المهام المنقولة. ولتجاوز هذه التحديات، نقدّم تقنية تُسمى "التدريب المتفرّع النادر" (RST)، والتي تستفيد من الفوائد الناتجة عن التدريب المسبق الواسع لنماذج VLP، حيث تتطلب هذه التقنية تعديلًا ضئيلًا جدًا (حوالي 0.1% إلى 0.5%) من معاملات نموذج VLP لتحقيق أداء يُشبه التدريب المخصص (Fine-tuning). وبدمج CMKD وRST، نقدّم حلًا شاملاً يُمكّن من الاستفادة الفعّالة من نماذج VLP في مهام UDA، مع تقليل عبء التخزين المرتبط بنشر النماذج. علاوةً على ذلك، يمكن لـ CMKD أن تعمل كأساس مرجعي عند دمجها مع تقنيات أخرى مثل FixMatch، مما يعزز أداء UDA. وقد أظهرت الطريقة المقترحة تفوقًا على التقنيات الحالية في المعايير القياسية. وستكون الشفرة المصدرية متاحة عبر الرابط التالي: https://github.com/Wenlve-Zhou/VLP-UDA.

التكيف غير المراقب للنطاق باستخدام التدريب المسبق للرؤية واللغة | أحدث الأوراق البحثية | HyperAI