النماذج البصرية تكون أكثر مقاومة وعدالة عند تدريبها مسبقًا على صور غير منظمة دون توجيه

يُمكّن التعلّم التمييزي ذاتيّ التدريب من تدريب النماذج على أي مجموعة عشوائية من الصور من الإنترنت، وربما استرجاع معلومات بارزة تساعد في التمييز بين الصور. عند تطبيق هذا الأسلوب على مجموعة بيانات ImageNet، ينتج عنه سمات مركزية على الكائنات تُحقق أداءً يُعادل الأداء الناتج عن السمات المُعلَّمة بشكل مُراقب في معظم المهام اللاحقة المرتبطة بالكائنات. في هذه الدراسة، نتساءل عما إذا كان بإمكاننا، باستخدام هذه القدرة، استخلاص أي معلومات بارزة وتمثيلية موجودة في مجموعة متنوعة وغير محدودة من الصور من جميع أنحاء العالم. ولتحقيق ذلك، نُدرّب نماذجنا على مليارات الصور العشوائية دون أي معالجة مسبقة للبيانات أو افتراضات مسبقة حول ما نريد من النموذج تعلّمه. ونُضخّم حجم النموذج ليصل إلى 10 مليار معلمة كثيفة، بهدف تجنّب التعلّم غير الكافي (underfitting) في ظل حجم البيانات الكبير. ونُجري دراسة موسعة ونُختبر أداء النموذج على أكثر من 50 معيارًا، بما في ذلك العدالة، والمقاومة لانزياح التوزيع، والتنوع الجغرافي، والتمييز الدقيق، وكشف الصور المُقلدة، والعديد من مجموعات بيانات التصنيف الصوري. ونتيجة لذلك، لا يُجسّد النموذج المعلومات الدلالية بشكل جيد فحسب، بل يُدرك أيضًا معلومات عن الأسلوب الفني، ويُتعلم معلومات بارزة مثل المواقع الجغرافية، وتمثيلات الكلمات متعددة اللغات، استنادًا فقط إلى المحتوى البصري. والأهم من ذلك، اكتشفنا أن هذا النوع من النماذج يكون أكثر مقاومة، وأكثر عدالة، وأقل ضررًا وأقل تحيّزًا مقارنةً بالنماذج المُعلَّمة بشكل مُراقب أو النماذج التي تُدرّب على مجموعات بيانات مركزية على الكائنات مثل ImageNet.