إيفا: استكشاف حدود تعلم التمثيل البصري المُقنّع على نطاق واسع

نُطلق نموذج EVA، وهو نموذج أساسي مركّز على الرؤية، لاستكشاف حدود التمثيل البصري على نطاق واسع باستخدام فقط بيانات متاحة للعامة. يتم تدريب EVA كنموذج ViT بسيط (Vanilla ViT) لإعادة بناء ميزات الرؤية المُحاذاة بين الصورة والنص التي تم تغطيتها، مع الاعتماد على اللقطات المرئية الظاهرة. وباستخدام هذه المهمة البديلة (pretext task)، نتمكن من توسيع نطاق EVA بفعالية إلى مليار معلمة، ونُسجل أرقامًا قياسية جديدة في مجموعة واسعة من المهام اللاحقة الممثلة للرؤية، مثل تصنيف الصور، وتصنيف الحركات في الفيديو، وكشف الكائنات، والتقسيم الحديدي (instance segmentation)، والتقسيم الدلالي (semantic segmentation)، دون الحاجة إلى تدريب مشرف مكثف. بالإضافة إلى ذلك، لاحظنا تغيرات كمية عند توسيع EVA تؤدي إلى تغيرات نوعية في أداء التعلم المن転 (transfer learning) لا توجد في النماذج الأخرى. على سبيل المثال، تحقق EVA قفزة كبيرة في مهمة التقسيم الحديدي ذات المفردات الكبيرة، حيث يحقق نموذجنا أداءً شبه متفوق على مستوى الحالة الحالية (state-of-the-art) في مجموعة بيانات LVISv1.0 التي تحتوي على أكثر من ألف فئة، وبنفس الأداء الممتاز على مجموعة بيانات COCO التي تحتوي فقط على ثمانين فئة. وبeyond كونه مجرد مشغل بصري نقي، يمكن لـ EVA أيضًا أن يُستخدم كمحور متعدد الوسائط مركّز على الرؤية، لربط الصور بالنصوص. وجدنا أن تهيئة برج الرؤية في نموذج CLIP الضخم من خلال EVA يمكن أن يُحسّن بشكل كبير استقرار التدريب، ويتفوق على النموذج المدرب من الصفر باستخدام عدد أقل من العينات وكمية أقل من الحوسبة، مما يفتح اتجاهًا جديدًا لتوسيع نطاق وتسريع التدريب المكلف للنماذج الأساسية متعددة الوسائط. ولتعزيز الأبحاث المستقبلية، نُطلق جميع التعليمات البرمجية والنماذج على الرابط: https://github.com/baaivision/EVA.