HyperAIHyperAI

Command Palette

Search for a command to run...

التحويلات البصرية ذات التعلم الذاتي الفعالة لتعلم التمثيل

Chunyuan Li Jianwei Yang Pengchuan Zhang Mei Gao Bin Xiao Xiyang Dai Lu Yuan Jianfeng Gao

الملخص

تُجري هذه الورقة دراسة مفصلة على تقنيتين لتطوير نماذج ناقلات الرؤية ذاتية التدريب الفعالة (EsViT) لتعلم التمثيل البصري. أولاً، نُظهر من خلال دراسة تجريبية شاملة أن الهياكل متعددة المراحل التي تعتمد على انتباه ذاتي نادر يمكن أن تقلل بشكل كبير من التعقيد النموذجي، لكنها تأتي على حساب فقدان القدرة على التقاط التوافقات الدقيقة بين مناطق الصورة. ثانيًا، نقترح مهمة تدريب مُسبق جديدة تُعرف بـ "مطابقة المناطق"، والتي تتيح للنموذج التقاط الاعتماديات الدقيقة بين المناطق، مما يؤدي إلى تحسين كبير في جودة التمثيلات البصرية المُكتسبة. تُظهر النتائج أن دمج هاتين التقنيتين يُمكن نموذج EsViT من تحقيق تقييم بنسبة 81.3% للمركز الأول على ImageNet باستخدام اختبار الاستبيان الخطي، متفوقًا على الأدوات السابقة بحوالي رتبة من القيمة العالية للإدخال (throughput). عند نقل النموذج إلى مهام التصنيف الخطي في المهام التالية (downstream)، يتفوق EsViT على نسخته المدربة تحت إشراف في 17 من أصل 18 مجموعة بيانات. تم إتاحة الشفرة والنماذج للجمهور عبر الرابط التالي: https://github.com/microsoft/esvit


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp