HyperAIHyperAI

Command Palette

Search for a command to run...

بيكو: مكتبة الشفرة الإدراكية لتدريب مسبق لنموذج بيرت لمحولات الرؤية

Xiaoyi Dong Jianmin Bao Ting Zhang Dongdong Chen Weiming Zhang Lu Yuan Dong Chen Fang Wen Nenghai Yu Baining Guo

الملخص

يستكشف هذا البحث هدف تنبؤ أفضل لتدريب مُسبق لنموذج BERT في نماذج المحولات البصرية (Vision Transformers). نلاحظ أن الأهداف الحالية للتنبؤ تتعارض مع تقييم الإنسان للإدراك البصري. ويُحفّز هذا التناقض لنا على تعلّم هدف تنبؤ يراعي الإدراك البشري. نحن نجادل بأن الصور التي تشبه بعضها من حيث الإدراك يجب أن تبقى قريبة من بعضها في فضاء هدف التنبؤ. ونجد بشكل مفاجئ فكرة بسيطة ولكن فعّالة: تطبيق التشابه الإدراكي أثناء تدريب النموذج dVAE. علاوةً على ذلك، نستخدم نموذجًا محولًا ذاتيًا التدريب (self-supervised transformer) لاستخراج الميزات العميقة، ونُظهر أن هذا النموذج يعمل بشكل جيد في حساب التشابه الإدراكي. ونُثبت أن الرموز البصرية المُتعلّمة تمتلك بالفعل معاني شمولية أفضل، وتساهم في تحسين أداء التدريب المسبق وتحقيق أداء متفوّق في مهام ما بعد التدريب المختلفة. على سبيل المثال، نحقق دقة أعلى بنسبة 84.5%\textbf{84.5\%}84.5% في التصنيف الأولي (Top-1) على ImageNet-1K باستخدام هيكل ViT-B، متفوّقًا على الطريقة التنافسية BEiT بنسبة +1.3%\textbf{+1.3\%}+1.3% في نفس عدد دورات التدريب المسبق. كما تُظهر طريقة عملنا تحسينًا كبيرًا في مهام الكشف عن الكائنات والتقسيم على COCO، وكذلك في التقسيم الدلالي على ADE20K. وباستخدام هيكل أقوى (ViT-H)، نحقق أفضل أداء مُسجّل على ImageNet (بمعدل دقة 88.3%\textbf{88.3\%}88.3%) بين الطرق التي تستخدم فقط بيانات ImageNet-1K.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp