ماسكيد أوتوإينكودرز هي متعلمون بصرية قابلون للتوسع

يُظهر هذا البحث أن المُشفّرات التلقائية المُقنعة (MAE) هي نماذج تعلم ذاتي قابلة للتوسع في مجال الرؤية الحاسوبية. يعتمد نهجنا في MAE على بساطة متناهية: نُغطي بقعًا عشوائية من الصورة المدخلة، ثم نُعيد بناء القيم المفقودة للبكسل. ويُبنى هذا النهج على تصميمين رئيسيين. أولاً، نُطوّر بنية مُشفّر-مُفكّك غير متزنة، حيث يعمل المُشفّر فقط على الجزء المرئي من البُقع (دون تضمين علامات التغطية)، مع مُفكّك خفيف الوزن يُعيد بناء الصورة الأصلية من التمثيل الخفي وعلامات التغطية. ثانيًا، نكتشف أن تغطية نسبة عالية من الصورة المدخلة، مثلاً 75٪، تُنتج مهمة ذاتية رقابية غير تافهة وذات معنى. وعند دمج هذين التصميمين، نتمكن من تدريب نماذج كبيرة بكفاءة وفعالية: نُسرّع عملية التدريب (بمعدل 3 أضعاف أو أكثر) ونُحسّن الدقة. يُمكّننا النهج القابل للتوسع هذا من تعلّم نماذج ذات قدرة عالية تُعطي نتائج عامة جيدة: على سبيل المثال، نموذج ViT-Huge القياسي يحقق أفضل دقة (87.8٪) بين الطرق التي تعتمد فقط على مجموعة بيانات ImageNet-1K. كما تُظهر الأداء في المهام التالية تفوقًا على التدريب المُراقب، وتمثّل سلوكًا واعدًا للتوسع.