تحسين تعلم التمثيل البصري من خلال الفهم الحسي

نقدّم توسيعًا لمحرّكات الترميز المُقنّعة (MAE) يُحسّن من التمثيلات التي يتعلّمها النموذج من خلال تشجيع صريح على اكتساب ميزات أكثر تقدمًا على مستوى المشهد. نحقّق ذلك من خلال: (أ) إدخال مصطلح مماثلة بصرية بين الصور المولّدة والصور الحقيقية، و(ب) دمج عدة تقنيات من أدبيات التدريب العدواني، بما في ذلك التدريب متعدد المقياسات وتكبير المُميّز التكيفي. يؤدي دمج هذه العناصر إلى تحسين ليس فقط إعادة بناء البكسل، بل أيضًا تمثيلات تبدو أكثر قدرة على التقاط التفاصيل الأعلى مستوى داخل الصور. وبشكل أكثر إثارة للانتباه، نُظهر كيف أن طريقتنا، تسمى Perceptual MAE، تؤدي إلى أداء أفضل في المهام اللاحقة مقارنةً بالطرق السابقة، وتتفوّق على النماذج السابقة. ونحقق دقة بنسبة 78.1% في التحديد الأولي (top-1) باستخدام اختبار التحديد الخطي على ImageNet-1K، ونصل إلى 88.1% عند التخصيص الدقيق (fine-tuning)، مع نتائج مشابهة في مهام لاحقة أخرى، وكل ذلك دون الحاجة إلى استخدام نماذج مُدرّبة مسبقًا أو بيانات إضافية.