HyperAIHyperAI
منذ 8 أيام

دمج المعرفة المتأصلة في نماذج الرؤية واللغة مع التكيف الحسي للنطاق من خلال التوجيه القوي-الضعيف

Thomas Westfechtel, Dexuan Zhang, Tatsuya Harada
دمج المعرفة المتأصلة في نماذج الرؤية واللغة مع التكيف الحسي للنطاق من خلال التوجيه القوي-الضعيف
الملخص

تسعى التكييف غير المراقب للنطاق (UDA) إلى التغلب على الجهد المتعب المرتبط بتصنيف البيانات من خلال الاستفادة من مجموعة بيانات مصدر مُصنفة ونقل معرفتها إلى مجموعة بيانات مستهدفة مشابهة ولكن مختلفة. في الوقت نفسه، تُظهر النماذج البصرية-اللغوية الحديثة قدرات ملحوظة على التنبؤ بدون تدريب (zero-shot). في هذا العمل، ندمج المعرفة المكتسبة من خلال UDA مع المعرفة الجوهرية للنماذج البصرية-اللغوية. نقدّم خطة تعلم مدعومة بتحفيز قوي وضعيف (strong-weak guidance) تستخدم التنبؤات بدون تدريب لمساعدة عملية محاذاة بيانات المصدر والهدف. أما التحفيز القوي، فيعتمد على توسيع مجموعة بيانات المصدر باستخدام العينات الأكثر ثقة من مجموعة بيانات الهدف. بالإضافة إلى ذلك، نستخدم خسارة انتقال المعرفة (knowledge distillation loss) كتحفيز ضعيف. يعتمد التحفيز القوي على العلامات الصارمة (hard labels)، ولكن يُطبَّق فقط على التنبؤات الأكثر ثقة من مجموعة بيانات الهدف. في المقابل، يُستخدم التحفيز الضعيف على كامل مجموعة البيانات، لكنه يعتمد على علامات ناعمة (soft labels). ويُنفَّذ التحفيز الضعيف كخسارة انتقال معرفة تعتمد على التنبؤات بدون تدريب (المُزَوَّزة) (shifted zero-shot predictions). ونُظهر أن طريقة عملنا تكمل وتنال فائدة من تقنيات تكييف المُحفِّز (prompt adaptation) الخاصة بالنماذج البصرية-اللغوية. أجرينا تجارب ودراسات تحليلية على ثلاث معايير (OfficeHome، VisDA، وDomainNet)، وتفوّقنا على أحدث الطرق المُنتشرة. كما تُظهر دراسات التحليل التفصيلي المُعمّقة مساهمات المكونات المختلفة في خوارزميتنا.

دمج المعرفة المتأصلة في نماذج الرؤية واللغة مع التكيف الحسي للنطاق من خلال التوجيه القوي-الضعيف | أحدث الأوراق البحثية | HyperAI