HyperAIHyperAI
منذ 11 أيام

التحويلات البصرية ذات التعلم الذاتي الفعالة لتعلم التمثيل

Chunyuan Li, Jianwei Yang, Pengchuan Zhang, Mei Gao, Bin Xiao, Xiyang Dai, Lu Yuan, Jianfeng Gao
التحويلات البصرية ذات التعلم الذاتي الفعالة لتعلم التمثيل
الملخص

تُجري هذه الورقة دراسة مفصلة على تقنيتين لتطوير نماذج ناقلات الرؤية ذاتية التدريب الفعالة (EsViT) لتعلم التمثيل البصري. أولاً، نُظهر من خلال دراسة تجريبية شاملة أن الهياكل متعددة المراحل التي تعتمد على انتباه ذاتي نادر يمكن أن تقلل بشكل كبير من التعقيد النموذجي، لكنها تأتي على حساب فقدان القدرة على التقاط التوافقات الدقيقة بين مناطق الصورة. ثانيًا، نقترح مهمة تدريب مُسبق جديدة تُعرف بـ "مطابقة المناطق"، والتي تتيح للنموذج التقاط الاعتماديات الدقيقة بين المناطق، مما يؤدي إلى تحسين كبير في جودة التمثيلات البصرية المُكتسبة. تُظهر النتائج أن دمج هاتين التقنيتين يُمكن نموذج EsViT من تحقيق تقييم بنسبة 81.3% للمركز الأول على ImageNet باستخدام اختبار الاستبيان الخطي، متفوقًا على الأدوات السابقة بحوالي رتبة من القيمة العالية للإدخال (throughput). عند نقل النموذج إلى مهام التصنيف الخطي في المهام التالية (downstream)، يتفوق EsViT على نسخته المدربة تحت إشراف في 17 من أصل 18 مجموعة بيانات. تم إتاحة الشفرة والنماذج للجمهور عبر الرابط التالي: https://github.com/microsoft/esvit

التحويلات البصرية ذات التعلم الذاتي الفعالة لتعلم التمثيل | أحدث الأوراق البحثية | HyperAI