HyperAIHyperAI
منذ 11 أيام

الضبط التمييزي: قليل من المساعدة لجعل مُشفّرات الترميز المُقنَّعة تنسى

Johannes Lehner, Benedikt Alkin, Andreas Fürst, Elisabeth Rumetshofer, Lukas Miklautz, Sepp Hochreiter
الضبط التمييزي: قليل من المساعدة لجعل مُشفّرات الترميز المُقنَّعة تنسى
الملخص

تُعدّ طرق نمذجة الصور المُقنّعة (MIM)، مثل مُفكّكات الصور المُقنّعة (MAE)، فعّالة في تعلّم تمثيل غني للمدخلات. ومع ذلك، عند تكييفها لمهام تالية، تتطلب كمية كافية من البيانات المُصنّفة، نظرًا لأن ميزاتها الغنية تُشفّر ليس فقط الكائنات، بل أيضًا الخلفيات غير ذات الصلة في الصورة. في المقابل، تركز طرق التمييز بين الحالات (ID) على الكائنات فقط. في هذا العمل، ندرس كيفية دمج الكفاءة والقابلية للتوسع في MIM مع القدرة على ID على أداء التصنيف في المهام التالية في غياب كميات كبيرة من البيانات المُصنّفة. ولتحقيق ذلك، نقدّم تكييفًا تباينيًا لمُفكّك الصور المُقنّعة (MAE-CT)، وهو نهج متسلسل يستخدم التجميع الضمني لهدف التعلم التبايني للجيران الأقرب (NNCLR) لتحفيز التعميم في الطبقات العلوية لنموذج MAE المُدرّب مسبقًا. يُعدّ MAE-CT مُعدّلًا للميزات الغنية بحيث تتشكل فيها مجموعات معنوية للكائنات دون استخدام أي بيانات مُصنّفة. وتجدر الإشارة إلى أن MAE-CT لا يعتمد على تحويرات مُصمّمة يدويًا، ويحقق غالبًا أفضل الأداء عند استخدام تحويرات محدودة جدًا (القطع والانعكاس). علاوةً على ذلك، يُعدّ MAE-CT فعّالًا من حيث الحوسبة، حيث يتطلب إضافيًا لا يتجاوز 10% مقارنةً بإعادة تدريب MAE. عند تطبيقه على نماذج ضخمة وضخمة جدًا من نموذج التحويل البصري (ViT)، يتفوّق MAE-CT على الطرق ذاتية التعلّم السابقة المدروسة على ImageNet من حيث دقة التحديد الخطي، ودقة التصنيف باستخدام k-NN، ودقة التصنيف في حالات قليلة (low-shot)، فضلًا عن دقة التجميع غير المُصنّف. وباستخدام نموذج ViT-H/16، يحقق MAE-CT حالة جديدة من الأداء المُتفوّق في التحديد الخطي بدرجة تبلغ 82.2%.

الضبط التمييزي: قليل من المساعدة لجعل مُشفّرات الترميز المُقنَّعة تنسى | أحدث الأوراق البحثية | HyperAI