بيكو: مكتبة الشفرة الإدراكية لتدريب مسبق لنموذج بيرت لمحولات الرؤية

يستكشف هذا البحث هدف تنبؤ أفضل لتدريب مُسبق لنموذج BERT في نماذج المحولات البصرية (Vision Transformers). نلاحظ أن الأهداف الحالية للتنبؤ تتعارض مع تقييم الإنسان للإدراك البصري. ويُحفّز هذا التناقض لنا على تعلّم هدف تنبؤ يراعي الإدراك البشري. نحن نجادل بأن الصور التي تشبه بعضها من حيث الإدراك يجب أن تبقى قريبة من بعضها في فضاء هدف التنبؤ. ونجد بشكل مفاجئ فكرة بسيطة ولكن فعّالة: تطبيق التشابه الإدراكي أثناء تدريب النموذج dVAE. علاوةً على ذلك، نستخدم نموذجًا محولًا ذاتيًا التدريب (self-supervised transformer) لاستخراج الميزات العميقة، ونُظهر أن هذا النموذج يعمل بشكل جيد في حساب التشابه الإدراكي. ونُثبت أن الرموز البصرية المُتعلّمة تمتلك بالفعل معاني شمولية أفضل، وتساهم في تحسين أداء التدريب المسبق وتحقيق أداء متفوّق في مهام ما بعد التدريب المختلفة. على سبيل المثال، نحقق دقة أعلى بنسبة $\textbf{84.5\%}$ في التصنيف الأولي (Top-1) على ImageNet-1K باستخدام هيكل ViT-B، متفوّقًا على الطريقة التنافسية BEiT بنسبة $\textbf{+1.3\%}$ في نفس عدد دورات التدريب المسبق. كما تُظهر طريقة عملنا تحسينًا كبيرًا في مهام الكشف عن الكائنات والتقسيم على COCO، وكذلك في التقسيم الدلالي على ADE20K. وباستخدام هيكل أقوى (ViT-H)، نحقق أفضل أداء مُسجّل على ImageNet (بمعدل دقة $\textbf{88.3\%}$) بين الطرق التي تستخدم فقط بيانات ImageNet-1K.