دمج المعرفة المتأصلة في نماذج الرؤية واللغة مع التكيف الحسي للنطاق من خلال التوجيه القوي-الضعيف

تسعى التكييف غير المراقب للنطاق (UDA) إلى التغلب على الجهد المتعب المرتبط بتصنيف البيانات من خلال الاستفادة من مجموعة بيانات مصدر مُصنفة ونقل معرفتها إلى مجموعة بيانات مستهدفة مشابهة ولكن مختلفة. في الوقت نفسه، تُظهر النماذج البصرية-اللغوية الحديثة قدرات ملحوظة على التنبؤ بدون تدريب (zero-shot). في هذا العمل، ندمج المعرفة المكتسبة من خلال UDA مع المعرفة الجوهرية للنماذج البصرية-اللغوية. نقدّم خطة تعلم مدعومة بتحفيز قوي وضعيف (strong-weak guidance) تستخدم التنبؤات بدون تدريب لمساعدة عملية محاذاة بيانات المصدر والهدف. أما التحفيز القوي، فيعتمد على توسيع مجموعة بيانات المصدر باستخدام العينات الأكثر ثقة من مجموعة بيانات الهدف. بالإضافة إلى ذلك، نستخدم خسارة انتقال المعرفة (knowledge distillation loss) كتحفيز ضعيف. يعتمد التحفيز القوي على العلامات الصارمة (hard labels)، ولكن يُطبَّق فقط على التنبؤات الأكثر ثقة من مجموعة بيانات الهدف. في المقابل، يُستخدم التحفيز الضعيف على كامل مجموعة البيانات، لكنه يعتمد على علامات ناعمة (soft labels). ويُنفَّذ التحفيز الضعيف كخسارة انتقال معرفة تعتمد على التنبؤات بدون تدريب (المُزَوَّزة) (shifted zero-shot predictions). ونُظهر أن طريقة عملنا تكمل وتنال فائدة من تقنيات تكييف المُحفِّز (prompt adaptation) الخاصة بالنماذج البصرية-اللغوية. أجرينا تجارب ودراسات تحليلية على ثلاث معايير (OfficeHome، VisDA، وDomainNet)، وتفوّقنا على أحدث الطرق المُنتشرة. كما تُظهر دراسات التحليل التفصيلي المُعمّقة مساهمات المكونات المختلفة في خوارزميتنا.